正在閱讀:

遭GPT-4o碾壓,豆包們直面語(yǔ)音AI生死戰(zhàn)

掃一掃下載界面新聞APP

遭GPT-4o碾壓,豆包們直面語(yǔ)音AI生死戰(zhàn)

在算力資源的匱乏下,中國(guó)的實(shí)時(shí)語(yǔ)音AI正面臨著一場(chǎng)艱難的較量,試圖在技術(shù)舞臺(tái)上與GPT-4o一決高下,這無(wú)疑是當(dāng)前中國(guó)AI版圖中的尷尬局面。

圖片來(lái)源:界面圖庫(kù)

文 | 科技新知官方 廖政

編輯丨蕨影

最近,語(yǔ)音AI這個(gè)賽道,又被OpenAI搞火了。

就在9月25日,GPT-4o高級(jí)語(yǔ)音終于開(kāi)始全量推出,Plus用戶(hù)一周內(nèi)都能用了。在OpenAI的移動(dòng)端APP上即可體驗(yàn)!

講真,這是AI漸冷的日子里,為數(shù)不多的“高光時(shí)刻”。

此外,還帶上了一些更新,增加自定義指令、記憶、5種新的聲音和改進(jìn)的口音。與標(biāo)準(zhǔn)語(yǔ)音模式進(jìn)行區(qū)分(黑色旋轉(zhuǎn)球),高級(jí)語(yǔ)音將以藍(lán)色旋轉(zhuǎn)球表示。

并且,其中還包括對(duì)諸如重慶話、北京兒化音等地域性方言的精準(zhǔn)模仿,可以說(shuō)是學(xué)嘛像嘛。

在消除語(yǔ)音機(jī)械感的同時(shí),用戶(hù)不僅可以隨時(shí)打斷通話,即使不和它說(shuō)話時(shí),它也能保持安靜,一旦有任何問(wèn)題可隨時(shí)向它提出。

從總體上來(lái)說(shuō),這次語(yǔ)音AI的更新,讓GPT-4o的交互越來(lái)越有“人味”了。

不過(guò),早在GPT-4o的實(shí)時(shí)語(yǔ)音功能推出前,國(guó)內(nèi)的一批大廠,就已經(jīng)率先開(kāi)始了對(duì)語(yǔ)音AI這塊高地的爭(zhēng)奪,其焦點(diǎn)也是沖著“實(shí)時(shí)交流”“真人化”等方向去的。

至于結(jié)果…… 只能說(shuō),在“徒有其表”的模仿下,國(guó)內(nèi)的語(yǔ)音AI,離真正通用且泛化的人機(jī)交互方式,還有相當(dāng)一段距離。

Part.1 短板暴露

在AI時(shí)代,語(yǔ)音AI最大的意義是什么?

對(duì)于這個(gè)問(wèn)題,科大訊飛給出了一個(gè)具有全局性的答案:

語(yǔ)音平臺(tái)可能成為未來(lái)物聯(lián)網(wǎng)的“操作系統(tǒng)”,換句話說(shuō),就是當(dāng)物聯(lián)網(wǎng)將所有的設(shè)備都能聯(lián)網(wǎng)后,什么智能硬件、自動(dòng)駕駛汽車(chē)、消費(fèi)級(jí)機(jī)器人等等,都是潛在的應(yīng)用場(chǎng)景。

到那時(shí)候,要想讓這些設(shè)備能聽(tīng)懂人話,那就得靠語(yǔ)音平臺(tái)了。

但是,雖然總的思路挺有格局的,但在具體實(shí)施的手段上,訊飛這樣的大廠卻走了一條“自下而上”的路線。

大體意思是,在語(yǔ)音AI生態(tài)的構(gòu)建上,訊飛這幾年基本上是從行業(yè)場(chǎng)景一個(gè)個(gè)往下打,像教育、醫(yī)療、政務(wù)這些場(chǎng)景,都是它們重點(diǎn)發(fā)力的地方。

從總體上看,訊飛的策略是先抓住這些垂直領(lǐng)域,通過(guò)提供專(zhuān)用解決方案來(lái)逐步累積數(shù)據(jù)和優(yōu)化算法。這個(gè)做法有個(gè)好處,就是每個(gè)場(chǎng)景里,訊飛可以做得很深、很專(zhuān)。

舉例來(lái)說(shuō),訊飛在2022年推出了“訊飛醫(yī)療AI醫(yī)生助手”,這款產(chǎn)品能在病歷記錄、輔助診療等方面提供語(yǔ)音輸入和智能建議,幫助醫(yī)生減輕文書(shū)工作壓力。

類(lèi)似的例子,還有訊飛在2023年推出了“智慧課堂解決方案”,旨在通過(guò)語(yǔ)音識(shí)別和評(píng)測(cè)技術(shù),幫助教師進(jìn)行實(shí)時(shí)的課堂互動(dòng)與教學(xué)反饋。

在這些垂直領(lǐng)域,星火的定制化方案,確實(shí)解決了很多行業(yè)痛點(diǎn),也使得訊飛能夠在激烈的市場(chǎng)競(jìng)爭(zhēng)中保持行業(yè)的龍頭地位。

在GPT-4o推出語(yǔ)音演示功能后,訊飛的星火大模型,也緊隨其后,推出了同樣能夠極速響應(yīng)、自由打斷,且能在各種情感、風(fēng)格、方言隨意切換的語(yǔ)音AI。

然而,對(duì)于構(gòu)建能夠“統(tǒng)一調(diào)度”的大平臺(tái)級(jí)別的語(yǔ)音AI來(lái)說(shuō),除了做到布局廣,且“說(shuō)話流暢”之外,還有至關(guān)重要的一步。

那就是:實(shí)時(shí)狀態(tài)下的語(yǔ)音AI,究竟能否幫助用戶(hù)解決一些較為復(fù)雜的需求?

關(guān)于這點(diǎn),我們對(duì)訊飛的星火大模型進(jìn)行了一次測(cè)試。

 

例如,在詢(xún)問(wèn)開(kāi)封有哪些著名景點(diǎn)時(shí),訊飛的實(shí)時(shí)語(yǔ)音AI,雖然回答得很流暢,但答案卻較為簡(jiǎn)單,比純文本狀態(tài)下省略了很多內(nèi)容。

那造成這種差距的關(guān)鍵原因是什么?

其實(shí),對(duì)于GPT-4o這樣的語(yǔ)音AI來(lái)說(shuō),除了確保通話流暢的RTC技術(shù)外,其背后還有一種關(guān)鍵的技術(shù)。

這就是端到端的語(yǔ)音大模型。

在以往的AI語(yǔ)音交互中,語(yǔ)音的處理大致分成了三個(gè)步驟。傳統(tǒng)的 STT(語(yǔ)音識(shí)別,Speech-to-Text)-LLM(大模型語(yǔ)義分析)- TTS(文本到語(yǔ)音,Text To Speech)三步走的語(yǔ)音技術(shù)。

這樣的技術(shù),特點(diǎn)是成熟,但反應(yīng)慢,缺乏對(duì)語(yǔ)氣等關(guān)鍵信息的理解,無(wú)法做到真正的實(shí)時(shí)語(yǔ)音對(duì)話。

與過(guò)去的三步式語(yǔ)音交互產(chǎn)品相比,GPT-4o 是一款跨文本、視覺(jué)和音頻端到端訓(xùn)練的新模型,這意味著所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

這也是GPT-4o說(shuō)話時(shí)反應(yīng)賊快,智商還在線的重要原因。

而當(dāng)今一眾力圖模仿GPT-4o的國(guó)產(chǎn)廠商,例如字節(jié)跳動(dòng),雖然依靠RTC技術(shù),讓語(yǔ)音AI做到了流暢、即時(shí),但在最核心的“內(nèi)功”,即端到端語(yǔ)音模型方面,卻露出了短板。

Part.2 “智力”縮水

在今年的8月21日,字節(jié)挑動(dòng)的豆包大模型,搭載了火山引擎的RTC技術(shù),也實(shí)現(xiàn)了類(lèi)似GPT-4o的實(shí)時(shí)音頻互動(dòng)表現(xiàn),能夠做到隨時(shí)打斷,交流自然,感覺(jué)就像真人說(shuō)話一樣。

所謂RTC(Real-Time Communication)技術(shù),是一種支持實(shí)時(shí)語(yǔ)音、實(shí)時(shí)視頻等互動(dòng)的技術(shù)。旨在降低語(yǔ)音通話中的延遲,使得用戶(hù)在進(jìn)行語(yǔ)音對(duì)話時(shí)感覺(jué)更加自然和順暢。

但RTC主要解決的,僅僅是語(yǔ)音AI流暢性和實(shí)時(shí)性問(wèn)題,但它并不能直接整合語(yǔ)音識(shí)別、理解和生成的步驟。

換句話說(shuō),在實(shí)時(shí)通話時(shí),模型雖然話說(shuō)得利索了,但智商卻不一定在線。

一個(gè)明顯的例子,就是字節(jié)的豆包大模型,在通過(guò)實(shí)時(shí)語(yǔ)音AI與用戶(hù)交流時(shí),遇到了和訊飛星火一樣的問(wèn)題,那就是語(yǔ)音AI的智力,明顯比純文本大模型被“砍”了很多。

 

例如,在對(duì)《黑神話:悟空》這一話題進(jìn)行交流時(shí),純文本狀態(tài)下的豆包,回答明顯要比實(shí)時(shí)語(yǔ)音的豆包要更詳細(xì),更有針對(duì)性。

一個(gè)可能的原因,是豆包在進(jìn)行語(yǔ)音交互時(shí),使用的并不是真正的端到端語(yǔ)音大模型。

在非端到端模型中,語(yǔ)音識(shí)別、理解和生成可能仍然是分開(kāi)的步驟,模型需要在極短的時(shí)間內(nèi)完成語(yǔ)音識(shí)別、理解和生成,而這一過(guò)程的計(jì)算和響應(yīng)速度,會(huì)限制其對(duì)復(fù)雜問(wèn)題的深入處理。

當(dāng)模型被迫快速反應(yīng)時(shí),由于無(wú)法充分利用上下文信息,從而導(dǎo)致了“智力下降”的表現(xiàn)。

其實(shí),真正的端到端語(yǔ)音大模型,實(shí)現(xiàn)起來(lái)遠(yuǎn)非想象中那么簡(jiǎn)單。

其中的難點(diǎn),一在訓(xùn)練數(shù)據(jù),二在計(jì)算資源;

根據(jù)騰訊算法工程師Marcus Chen的推測(cè),GPT-4o這樣的端到端語(yǔ)音大模型,背后使用的一種工程學(xué)方法,很可能是一種名叫離散化技術(shù)的路子。

這個(gè)技術(shù),簡(jiǎn)單點(diǎn)說(shuō),就是把這些連續(xù)的聲音波形切成一段一段的,每一段都提取出它特有的特征,比如語(yǔ)音的語(yǔ)義信息和聲學(xué)特征。這些特征就像是一個(gè)個(gè)小的“口令”,機(jī)器可以把它們當(dāng)成輸入,丟到語(yǔ)言模型里去學(xué)習(xí)和理解。

但這可不是什么人人都能輕松掌握的技術(shù)。

要想做出高質(zhì)量的語(yǔ)音token,需要大量的數(shù)據(jù)積累和復(fù)雜的建模過(guò)程。

這樣的高質(zhì)量數(shù)據(jù),往往來(lái)自高質(zhì)量的視頻、播客等等。成本是過(guò)去文字訓(xùn)練模型的幾十倍甚至更高。

而在計(jì)算資源方面,在實(shí)時(shí)互動(dòng)場(chǎng)景中,計(jì)算必須在極短的時(shí)間內(nèi)完成,這意味著端到端的大模型,通常需要消耗大量的計(jì)算資源,尤其是在處理高維度的語(yǔ)音數(shù)據(jù)任務(wù)時(shí)。

這也是為什么,OpenAI在推出GPT-4o的語(yǔ)音AI功能后,對(duì)用戶(hù)的使用量進(jìn)行了額度限制。其額度消耗和GPT-4o回復(fù)的額度一樣。

反觀現(xiàn)在以豆包為首的一些國(guó)產(chǎn)語(yǔ)音AI,雖然以免費(fèi)、不限次數(shù)為噱頭,但其生成質(zhì)量,卻相較于純文本狀態(tài)大打折扣。

這或許正是在算力資源緊張的情況下,模型采取的一種“權(quán)宜之計(jì)”。

因?yàn)楫?dāng)計(jì)算資源不足時(shí),模型可能會(huì)優(yōu)先選擇簡(jiǎn)單的、低耗能的響應(yīng)方式,以確保能夠及時(shí)回應(yīng)用戶(hù)的請(qǐng)求。

畢竟,又想要免費(fèi)無(wú)限地使用,又想要高質(zhì)量的實(shí)時(shí)回復(fù),天底下哪有那么好的事?

Part.3 算力困境

在AI時(shí)代,各類(lèi)To C 語(yǔ)音產(chǎn)品的主要邏輯是,將昂貴或難以獲得的人類(lèi)服務(wù),且是基于對(duì)話且可以在線完成的,替換為 AI,主要場(chǎng)景包括心理療愈、輔導(dǎo)、陪伴等。

對(duì)于To C 類(lèi)APP,要想大范圍地落地,其中一個(gè)前置條件,必然是成本的大幅度降低。唯有如此,企業(yè)才能夠以更低的價(jià)格提供服務(wù),進(jìn)而不斷擴(kuò)大用戶(hù)基數(shù)。

但問(wèn)題是,在降低成本的同時(shí),質(zhì)量和成效能否保障一定的水準(zhǔn)?

這正是最考驗(yàn)訊飛、字節(jié)等大廠的一點(diǎn)。

從商業(yè)上來(lái)說(shuō),在降低成本的同時(shí),要想質(zhì)量不拉胯,就需要有源源不斷的資金,進(jìn)行研發(fā)和技術(shù)迭代。

這就要求企業(yè)找到一種明確的商業(yè)模式,來(lái)自我造血。

OpenAI之所以能在如此短的時(shí)間推出GPT-4o的語(yǔ)音功能,是因?yàn)楸晨课④?,能獲得源源不斷的融資,從而不斷強(qiáng)化其模型的能力。

相較之下,坐擁幾乎是行業(yè)內(nèi)最為豐富業(yè)務(wù)場(chǎng)景的科大訊飛,雖然趕上了2023年AI浪潮,并在同年6月市值一度逼近2000億大關(guān),可隨著其大模型持續(xù)高額的投入、銷(xiāo)售費(fèi)用持續(xù)攀升。當(dāng)下,訊飛對(duì)大模型收益能否覆蓋成本尚無(wú)定論,成本壓力始終存在。

一個(gè)重要的問(wèn)題是:既然在一些特定的行業(yè),例如醫(yī)療、教育、客服等,傳統(tǒng)語(yǔ)音AI已經(jīng)能夠勝任了,那么以端到端大模型為核心的語(yǔ)音AI,又該怎樣從中獲取自己的市場(chǎng)份額?

一個(gè)可能的方向,就是在各種長(zhǎng)尾需求中,對(duì)一系列復(fù)雜查詢(xún)和非標(biāo)準(zhǔn)化指令做出回應(yīng)。例如在智能汽車(chē)或移動(dòng)應(yīng)用中,端到端模型可以通過(guò)自然語(yǔ)言,理解用戶(hù)說(shuō)的犄角旮旯的地點(diǎn)在哪,并提供精確的導(dǎo)航指令。

然而,在這種模式下,用戶(hù)更多地是為語(yǔ)音AI背后強(qiáng)大的語(yǔ)言模型付費(fèi),為其出眾的智力付費(fèi)。

因此,端到端語(yǔ)音AI的盈利之路,一開(kāi)始就因?yàn)檫@種“附屬地位”而充滿(mǎn)了坎坷,因?yàn)榍罢叩哪芰σ坏┯龅狡款i,其也會(huì)跟著“一損俱損”。

而在附屬于語(yǔ)言大模型的尷尬之下,在算力資源的分配方面,語(yǔ)音AI也面臨著一種不利的態(tài)勢(shì)。例如,對(duì)于字節(jié)來(lái)說(shuō),迄今為止,字節(jié)跳動(dòng)已經(jīng)推出了11款A(yù)I應(yīng)用;其中,豆包是國(guó)內(nèi)用戶(hù)最多的AI獨(dú)立應(yīng)用,其MAU可能已達(dá)到2000萬(wàn)量級(jí)。

然而,從業(yè)務(wù)布局上來(lái)說(shuō),語(yǔ)音AI現(xiàn)階段不太可能是字節(jié)的重點(diǎn)。

在9月24日的深圳AI創(chuàng)新巡展上,火山引擎發(fā)布兩款視頻生成大模型PixelDance(像素舞動(dòng))和Seaweed(海草),很多業(yè)內(nèi)人士分析,這條視頻AI的類(lèi)“Sora”賽道,才是以短視頻聞名的字節(jié)真正不能輸?shù)舻囊徽獭?/p>

而AI視頻生成,恰恰又是最消耗算力的一條賽道。

來(lái)源:豆包AI視頻生成模型

與語(yǔ)音AI相比,同樣消耗高算力的視頻生成AI,因?yàn)閷?duì)應(yīng)著短視頻這個(gè)更明確,且更易于盈利的賽道,因此在資源分配上,更有可能得到大廠或投資者的傾斜。

結(jié)合之前豆包在實(shí)時(shí)通話狀態(tài)下的智力表現(xiàn),我們或許能夠推斷,留給豆包打造端到端語(yǔ)音大模型的算力,未必會(huì)那么充足。

而這種資源不足,卻又要在面上與GPT-4o一較高下的情況,這正是當(dāng)下實(shí)時(shí)語(yǔ)音AI這支“偏軍”在中國(guó)AI版圖中的窘境所在。

語(yǔ)音交互技術(shù)火熱了十來(lái)年,到了大模型時(shí)代,OpenAI、科大訊飛、字節(jié)這些大廠,又開(kāi)始重新在往這領(lǐng)域擠,為何?因?yàn)檫@種技術(shù),實(shí)際上暗藏著語(yǔ)音平臺(tái)可能成為未來(lái)物聯(lián)網(wǎng)“大腦”的想象。

通過(guò)一個(gè)語(yǔ)音平臺(tái),操控所有智能終端,這是所有傳統(tǒng)語(yǔ)音AI都辦不到的事。但是,這技術(shù)要想做得好,得先解決一個(gè)大問(wèn)題,就是機(jī)器得能真正理解人說(shuō)的話。這就需要AI在自然語(yǔ)言理解、知識(shí)獲取這些領(lǐng)域有新的突破。

然而,在語(yǔ)言大模型遇到瓶頸,且算力資源被視頻AI等“光環(huán)”更耀眼的產(chǎn)品搶走的情況下,語(yǔ)音AI在中國(guó)人工智能的版圖中,暫且只能是個(gè)尷尬的存在。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

遭GPT-4o碾壓,豆包們直面語(yǔ)音AI生死戰(zhàn)

在算力資源的匱乏下,中國(guó)的實(shí)時(shí)語(yǔ)音AI正面臨著一場(chǎng)艱難的較量,試圖在技術(shù)舞臺(tái)上與GPT-4o一決高下,這無(wú)疑是當(dāng)前中國(guó)AI版圖中的尷尬局面。

圖片來(lái)源:界面圖庫(kù)

文 | 科技新知官方 廖政

編輯丨蕨影

最近,語(yǔ)音AI這個(gè)賽道,又被OpenAI搞火了。

就在9月25日,GPT-4o高級(jí)語(yǔ)音終于開(kāi)始全量推出,Plus用戶(hù)一周內(nèi)都能用了。在OpenAI的移動(dòng)端APP上即可體驗(yàn)!

講真,這是AI漸冷的日子里,為數(shù)不多的“高光時(shí)刻”。

此外,還帶上了一些更新,增加自定義指令、記憶、5種新的聲音和改進(jìn)的口音。與標(biāo)準(zhǔn)語(yǔ)音模式進(jìn)行區(qū)分(黑色旋轉(zhuǎn)球),高級(jí)語(yǔ)音將以藍(lán)色旋轉(zhuǎn)球表示。

并且,其中還包括對(duì)諸如重慶話、北京兒化音等地域性方言的精準(zhǔn)模仿,可以說(shuō)是學(xué)嘛像嘛。

在消除語(yǔ)音機(jī)械感的同時(shí),用戶(hù)不僅可以隨時(shí)打斷通話,即使不和它說(shuō)話時(shí),它也能保持安靜,一旦有任何問(wèn)題可隨時(shí)向它提出。

從總體上來(lái)說(shuō),這次語(yǔ)音AI的更新,讓GPT-4o的交互越來(lái)越有“人味”了。

不過(guò),早在GPT-4o的實(shí)時(shí)語(yǔ)音功能推出前,國(guó)內(nèi)的一批大廠,就已經(jīng)率先開(kāi)始了對(duì)語(yǔ)音AI這塊高地的爭(zhēng)奪,其焦點(diǎn)也是沖著“實(shí)時(shí)交流”“真人化”等方向去的。

至于結(jié)果…… 只能說(shuō),在“徒有其表”的模仿下,國(guó)內(nèi)的語(yǔ)音AI,離真正通用且泛化的人機(jī)交互方式,還有相當(dāng)一段距離。

Part.1 短板暴露

在AI時(shí)代,語(yǔ)音AI最大的意義是什么?

對(duì)于這個(gè)問(wèn)題,科大訊飛給出了一個(gè)具有全局性的答案:

語(yǔ)音平臺(tái)可能成為未來(lái)物聯(lián)網(wǎng)的“操作系統(tǒng)”,換句話說(shuō),就是當(dāng)物聯(lián)網(wǎng)將所有的設(shè)備都能聯(lián)網(wǎng)后,什么智能硬件、自動(dòng)駕駛汽車(chē)、消費(fèi)級(jí)機(jī)器人等等,都是潛在的應(yīng)用場(chǎng)景。

到那時(shí)候,要想讓這些設(shè)備能聽(tīng)懂人話,那就得靠語(yǔ)音平臺(tái)了。

但是,雖然總的思路挺有格局的,但在具體實(shí)施的手段上,訊飛這樣的大廠卻走了一條“自下而上”的路線。

大體意思是,在語(yǔ)音AI生態(tài)的構(gòu)建上,訊飛這幾年基本上是從行業(yè)場(chǎng)景一個(gè)個(gè)往下打,像教育、醫(yī)療、政務(wù)這些場(chǎng)景,都是它們重點(diǎn)發(fā)力的地方。

從總體上看,訊飛的策略是先抓住這些垂直領(lǐng)域,通過(guò)提供專(zhuān)用解決方案來(lái)逐步累積數(shù)據(jù)和優(yōu)化算法。這個(gè)做法有個(gè)好處,就是每個(gè)場(chǎng)景里,訊飛可以做得很深、很專(zhuān)。

舉例來(lái)說(shuō),訊飛在2022年推出了“訊飛醫(yī)療AI醫(yī)生助手”,這款產(chǎn)品能在病歷記錄、輔助診療等方面提供語(yǔ)音輸入和智能建議,幫助醫(yī)生減輕文書(shū)工作壓力。

類(lèi)似的例子,還有訊飛在2023年推出了“智慧課堂解決方案”,旨在通過(guò)語(yǔ)音識(shí)別和評(píng)測(cè)技術(shù),幫助教師進(jìn)行實(shí)時(shí)的課堂互動(dòng)與教學(xué)反饋。

在這些垂直領(lǐng)域,星火的定制化方案,確實(shí)解決了很多行業(yè)痛點(diǎn),也使得訊飛能夠在激烈的市場(chǎng)競(jìng)爭(zhēng)中保持行業(yè)的龍頭地位。

在GPT-4o推出語(yǔ)音演示功能后,訊飛的星火大模型,也緊隨其后,推出了同樣能夠極速響應(yīng)、自由打斷,且能在各種情感、風(fēng)格、方言隨意切換的語(yǔ)音AI。

然而,對(duì)于構(gòu)建能夠“統(tǒng)一調(diào)度”的大平臺(tái)級(jí)別的語(yǔ)音AI來(lái)說(shuō),除了做到布局廣,且“說(shuō)話流暢”之外,還有至關(guān)重要的一步。

那就是:實(shí)時(shí)狀態(tài)下的語(yǔ)音AI,究竟能否幫助用戶(hù)解決一些較為復(fù)雜的需求?

關(guān)于這點(diǎn),我們對(duì)訊飛的星火大模型進(jìn)行了一次測(cè)試。

 

例如,在詢(xún)問(wèn)開(kāi)封有哪些著名景點(diǎn)時(shí),訊飛的實(shí)時(shí)語(yǔ)音AI,雖然回答得很流暢,但答案卻較為簡(jiǎn)單,比純文本狀態(tài)下省略了很多內(nèi)容。

那造成這種差距的關(guān)鍵原因是什么?

其實(shí),對(duì)于GPT-4o這樣的語(yǔ)音AI來(lái)說(shuō),除了確保通話流暢的RTC技術(shù)外,其背后還有一種關(guān)鍵的技術(shù)。

這就是端到端的語(yǔ)音大模型。

在以往的AI語(yǔ)音交互中,語(yǔ)音的處理大致分成了三個(gè)步驟。傳統(tǒng)的 STT(語(yǔ)音識(shí)別,Speech-to-Text)-LLM(大模型語(yǔ)義分析)- TTS(文本到語(yǔ)音,Text To Speech)三步走的語(yǔ)音技術(shù)。

這樣的技術(shù),特點(diǎn)是成熟,但反應(yīng)慢,缺乏對(duì)語(yǔ)氣等關(guān)鍵信息的理解,無(wú)法做到真正的實(shí)時(shí)語(yǔ)音對(duì)話。

與過(guò)去的三步式語(yǔ)音交互產(chǎn)品相比,GPT-4o 是一款跨文本、視覺(jué)和音頻端到端訓(xùn)練的新模型,這意味著所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

這也是GPT-4o說(shuō)話時(shí)反應(yīng)賊快,智商還在線的重要原因。

而當(dāng)今一眾力圖模仿GPT-4o的國(guó)產(chǎn)廠商,例如字節(jié)跳動(dòng),雖然依靠RTC技術(shù),讓語(yǔ)音AI做到了流暢、即時(shí),但在最核心的“內(nèi)功”,即端到端語(yǔ)音模型方面,卻露出了短板。

Part.2 “智力”縮水

在今年的8月21日,字節(jié)挑動(dòng)的豆包大模型,搭載了火山引擎的RTC技術(shù),也實(shí)現(xiàn)了類(lèi)似GPT-4o的實(shí)時(shí)音頻互動(dòng)表現(xiàn),能夠做到隨時(shí)打斷,交流自然,感覺(jué)就像真人說(shuō)話一樣。

所謂RTC(Real-Time Communication)技術(shù),是一種支持實(shí)時(shí)語(yǔ)音、實(shí)時(shí)視頻等互動(dòng)的技術(shù)。旨在降低語(yǔ)音通話中的延遲,使得用戶(hù)在進(jìn)行語(yǔ)音對(duì)話時(shí)感覺(jué)更加自然和順暢。

但RTC主要解決的,僅僅是語(yǔ)音AI流暢性和實(shí)時(shí)性問(wèn)題,但它并不能直接整合語(yǔ)音識(shí)別、理解和生成的步驟。

換句話說(shuō),在實(shí)時(shí)通話時(shí),模型雖然話說(shuō)得利索了,但智商卻不一定在線。

一個(gè)明顯的例子,就是字節(jié)的豆包大模型,在通過(guò)實(shí)時(shí)語(yǔ)音AI與用戶(hù)交流時(shí),遇到了和訊飛星火一樣的問(wèn)題,那就是語(yǔ)音AI的智力,明顯比純文本大模型被“砍”了很多。

 

例如,在對(duì)《黑神話:悟空》這一話題進(jìn)行交流時(shí),純文本狀態(tài)下的豆包,回答明顯要比實(shí)時(shí)語(yǔ)音的豆包要更詳細(xì),更有針對(duì)性。

一個(gè)可能的原因,是豆包在進(jìn)行語(yǔ)音交互時(shí),使用的并不是真正的端到端語(yǔ)音大模型。

在非端到端模型中,語(yǔ)音識(shí)別、理解和生成可能仍然是分開(kāi)的步驟,模型需要在極短的時(shí)間內(nèi)完成語(yǔ)音識(shí)別、理解和生成,而這一過(guò)程的計(jì)算和響應(yīng)速度,會(huì)限制其對(duì)復(fù)雜問(wèn)題的深入處理。

當(dāng)模型被迫快速反應(yīng)時(shí),由于無(wú)法充分利用上下文信息,從而導(dǎo)致了“智力下降”的表現(xiàn)。

其實(shí),真正的端到端語(yǔ)音大模型,實(shí)現(xiàn)起來(lái)遠(yuǎn)非想象中那么簡(jiǎn)單。

其中的難點(diǎn),一在訓(xùn)練數(shù)據(jù),二在計(jì)算資源;

根據(jù)騰訊算法工程師Marcus Chen的推測(cè),GPT-4o這樣的端到端語(yǔ)音大模型,背后使用的一種工程學(xué)方法,很可能是一種名叫離散化技術(shù)的路子。

這個(gè)技術(shù),簡(jiǎn)單點(diǎn)說(shuō),就是把這些連續(xù)的聲音波形切成一段一段的,每一段都提取出它特有的特征,比如語(yǔ)音的語(yǔ)義信息和聲學(xué)特征。這些特征就像是一個(gè)個(gè)小的“口令”,機(jī)器可以把它們當(dāng)成輸入,丟到語(yǔ)言模型里去學(xué)習(xí)和理解。

但這可不是什么人人都能輕松掌握的技術(shù)。

要想做出高質(zhì)量的語(yǔ)音token,需要大量的數(shù)據(jù)積累和復(fù)雜的建模過(guò)程。

這樣的高質(zhì)量數(shù)據(jù),往往來(lái)自高質(zhì)量的視頻、播客等等。成本是過(guò)去文字訓(xùn)練模型的幾十倍甚至更高。

而在計(jì)算資源方面,在實(shí)時(shí)互動(dòng)場(chǎng)景中,計(jì)算必須在極短的時(shí)間內(nèi)完成,這意味著端到端的大模型,通常需要消耗大量的計(jì)算資源,尤其是在處理高維度的語(yǔ)音數(shù)據(jù)任務(wù)時(shí)。

這也是為什么,OpenAI在推出GPT-4o的語(yǔ)音AI功能后,對(duì)用戶(hù)的使用量進(jìn)行了額度限制。其額度消耗和GPT-4o回復(fù)的額度一樣。

反觀現(xiàn)在以豆包為首的一些國(guó)產(chǎn)語(yǔ)音AI,雖然以免費(fèi)、不限次數(shù)為噱頭,但其生成質(zhì)量,卻相較于純文本狀態(tài)大打折扣。

這或許正是在算力資源緊張的情況下,模型采取的一種“權(quán)宜之計(jì)”。

因?yàn)楫?dāng)計(jì)算資源不足時(shí),模型可能會(huì)優(yōu)先選擇簡(jiǎn)單的、低耗能的響應(yīng)方式,以確保能夠及時(shí)回應(yīng)用戶(hù)的請(qǐng)求。

畢竟,又想要免費(fèi)無(wú)限地使用,又想要高質(zhì)量的實(shí)時(shí)回復(fù),天底下哪有那么好的事?

Part.3 算力困境

在AI時(shí)代,各類(lèi)To C 語(yǔ)音產(chǎn)品的主要邏輯是,將昂貴或難以獲得的人類(lèi)服務(wù),且是基于對(duì)話且可以在線完成的,替換為 AI,主要場(chǎng)景包括心理療愈、輔導(dǎo)、陪伴等。

對(duì)于To C 類(lèi)APP,要想大范圍地落地,其中一個(gè)前置條件,必然是成本的大幅度降低。唯有如此,企業(yè)才能夠以更低的價(jià)格提供服務(wù),進(jìn)而不斷擴(kuò)大用戶(hù)基數(shù)。

但問(wèn)題是,在降低成本的同時(shí),質(zhì)量和成效能否保障一定的水準(zhǔn)?

這正是最考驗(yàn)訊飛、字節(jié)等大廠的一點(diǎn)。

從商業(yè)上來(lái)說(shuō),在降低成本的同時(shí),要想質(zhì)量不拉胯,就需要有源源不斷的資金,進(jìn)行研發(fā)和技術(shù)迭代。

這就要求企業(yè)找到一種明確的商業(yè)模式,來(lái)自我造血。

OpenAI之所以能在如此短的時(shí)間推出GPT-4o的語(yǔ)音功能,是因?yàn)楸晨课④?,能獲得源源不斷的融資,從而不斷強(qiáng)化其模型的能力。

相較之下,坐擁幾乎是行業(yè)內(nèi)最為豐富業(yè)務(wù)場(chǎng)景的科大訊飛,雖然趕上了2023年AI浪潮,并在同年6月市值一度逼近2000億大關(guān),可隨著其大模型持續(xù)高額的投入、銷(xiāo)售費(fèi)用持續(xù)攀升。當(dāng)下,訊飛對(duì)大模型收益能否覆蓋成本尚無(wú)定論,成本壓力始終存在。

一個(gè)重要的問(wèn)題是:既然在一些特定的行業(yè),例如醫(yī)療、教育、客服等,傳統(tǒng)語(yǔ)音AI已經(jīng)能夠勝任了,那么以端到端大模型為核心的語(yǔ)音AI,又該怎樣從中獲取自己的市場(chǎng)份額?

一個(gè)可能的方向,就是在各種長(zhǎng)尾需求中,對(duì)一系列復(fù)雜查詢(xún)和非標(biāo)準(zhǔn)化指令做出回應(yīng)。例如在智能汽車(chē)或移動(dòng)應(yīng)用中,端到端模型可以通過(guò)自然語(yǔ)言,理解用戶(hù)說(shuō)的犄角旮旯的地點(diǎn)在哪,并提供精確的導(dǎo)航指令。

然而,在這種模式下,用戶(hù)更多地是為語(yǔ)音AI背后強(qiáng)大的語(yǔ)言模型付費(fèi),為其出眾的智力付費(fèi)。

因此,端到端語(yǔ)音AI的盈利之路,一開(kāi)始就因?yàn)檫@種“附屬地位”而充滿(mǎn)了坎坷,因?yàn)榍罢叩哪芰σ坏┯龅狡款i,其也會(huì)跟著“一損俱損”。

而在附屬于語(yǔ)言大模型的尷尬之下,在算力資源的分配方面,語(yǔ)音AI也面臨著一種不利的態(tài)勢(shì)。例如,對(duì)于字節(jié)來(lái)說(shuō),迄今為止,字節(jié)跳動(dòng)已經(jīng)推出了11款A(yù)I應(yīng)用;其中,豆包是國(guó)內(nèi)用戶(hù)最多的AI獨(dú)立應(yīng)用,其MAU可能已達(dá)到2000萬(wàn)量級(jí)。

然而,從業(yè)務(wù)布局上來(lái)說(shuō),語(yǔ)音AI現(xiàn)階段不太可能是字節(jié)的重點(diǎn)。

在9月24日的深圳AI創(chuàng)新巡展上,火山引擎發(fā)布兩款視頻生成大模型PixelDance(像素舞動(dòng))和Seaweed(海草),很多業(yè)內(nèi)人士分析,這條視頻AI的類(lèi)“Sora”賽道,才是以短視頻聞名的字節(jié)真正不能輸?shù)舻囊徽獭?/p>

而AI視頻生成,恰恰又是最消耗算力的一條賽道。

來(lái)源:豆包AI視頻生成模型

與語(yǔ)音AI相比,同樣消耗高算力的視頻生成AI,因?yàn)閷?duì)應(yīng)著短視頻這個(gè)更明確,且更易于盈利的賽道,因此在資源分配上,更有可能得到大廠或投資者的傾斜。

結(jié)合之前豆包在實(shí)時(shí)通話狀態(tài)下的智力表現(xiàn),我們或許能夠推斷,留給豆包打造端到端語(yǔ)音大模型的算力,未必會(huì)那么充足。

而這種資源不足,卻又要在面上與GPT-4o一較高下的情況,這正是當(dāng)下實(shí)時(shí)語(yǔ)音AI這支“偏軍”在中國(guó)AI版圖中的窘境所在。

語(yǔ)音交互技術(shù)火熱了十來(lái)年,到了大模型時(shí)代,OpenAI、科大訊飛、字節(jié)這些大廠,又開(kāi)始重新在往這領(lǐng)域擠,為何?因?yàn)檫@種技術(shù),實(shí)際上暗藏著語(yǔ)音平臺(tái)可能成為未來(lái)物聯(lián)網(wǎng)“大腦”的想象。

通過(guò)一個(gè)語(yǔ)音平臺(tái),操控所有智能終端,這是所有傳統(tǒng)語(yǔ)音AI都辦不到的事。但是,這技術(shù)要想做得好,得先解決一個(gè)大問(wèn)題,就是機(jī)器得能真正理解人說(shuō)的話。這就需要AI在自然語(yǔ)言理解、知識(shí)獲取這些領(lǐng)域有新的突破。

然而,在語(yǔ)言大模型遇到瓶頸,且算力資源被視頻AI等“光環(huán)”更耀眼的產(chǎn)品搶走的情況下,語(yǔ)音AI在中國(guó)人工智能的版圖中,暫且只能是個(gè)尷尬的存在。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。