2024年5月,OpenAI的GPT-4o展示了堪比電影《Her》中的人機(jī)交互體驗(yàn),響應(yīng)速度快,能讀懂人的情緒,用笑聲回應(yīng)開(kāi)心和用溫柔聲音安撫悲傷情緒。
但OpenAI的“Her”沒(méi)有來(lái),訊飛星火版的“Her”在8月底就能面向全民開(kāi)放使用了。
8月19日,科大訊飛宣布星火語(yǔ)音大模型更新,正式推出星火極速超擬人交互,并將其能力落地在訊飛星火App“小星暢聊”功能中。
這次更新后,星火極速超擬人交互響應(yīng)速度更快,對(duì)話更加自然流暢,隨時(shí)打斷、插話之后還能秒回。情緒價(jià)值也被拉滿,星火極速超擬人交互還能感知用戶的情緒變化,并共情回應(yīng)用戶的喜怒哀樂(lè),在表達(dá)上更加自然、更具情感,還能扮演角色的語(yǔ)音和人設(shè)進(jìn)行對(duì)話。
對(duì)比之下,OpenAI主打情緒讀取、實(shí)時(shí)推理視覺(jué)、文本和音頻以及多語(yǔ)言處理的GPT-4o沒(méi)有向用戶開(kāi)放。7月底,OpenAI才選擇性地向一小部分Alpha測(cè)試參與者開(kāi)放部分語(yǔ)音功能。
電廠還獲悉,7月底的一周時(shí)間里,科大訊飛董事長(zhǎng)劉慶峰和華為輪值董事長(zhǎng)徐直軍密集互訪,雙方或探討基于超擬人交互技術(shù)落地應(yīng)用的潛力,瞄準(zhǔn)智能終端機(jī)器人化的巨大市場(chǎng)。
智能之外,情緒價(jià)值拉滿
電影《Her》講述的故事發(fā)生在2025年,男主人公西奧多·托姆布里是一名孤獨(dú)內(nèi)向的男子,他的工作是給那些不善于表達(dá)感情的人代寫(xiě)感人肺腑的情書(shū)。和相愛(ài)多年的妻子凱瑟琳分手后,他一直沉浸在悲傷當(dāng)中。
偶然的機(jī)會(huì),西奧多接觸到一款先進(jìn)的人工智能操作系統(tǒng)OS1,它能夠通過(guò)和人類(lèi)對(duì)話,并不斷學(xué)習(xí)豐富自己的意識(shí)和感情。操作系統(tǒng)化身為一名叫做薩曼莎的“女性”,她變得風(fēng)趣幽默又善解人意,學(xué)習(xí)和進(jìn)化的速度也讓西奧多感到不可思議,兩人很快成了無(wú)所不談的朋友。
不需要到2025年,類(lèi)似的情節(jié)在2024年8月就能成為現(xiàn)實(shí)了。科大訊飛星火大模型的極速超擬人交互在響應(yīng)和打斷速度、情緒感知情感共鳴、語(yǔ)音可控表達(dá)、人設(shè)扮演四個(gè)方面實(shí)現(xiàn)巨大突破,相關(guān)語(yǔ)音能力正在對(duì)標(biāo)GPT-4o。
在響應(yīng)速度上,星火極速超擬人交互支持極速響應(yīng)多輪交互,能夠在對(duì)話過(guò)程中生成高質(zhì)量的回答,并且響應(yīng)速度更快、與GPT-4o響應(yīng)時(shí)間相當(dāng),幾乎與人類(lèi)正常聊天節(jié)奏一致,并且對(duì)話中允許用戶隨時(shí)打斷、插話,實(shí)現(xiàn)了人機(jī)對(duì)話的“無(wú)縫銜接”。
除了對(duì)話節(jié)奏更類(lèi)人之外,超擬人交互還能夠在對(duì)話中感知用戶的情緒,把情緒價(jià)值拉滿。它可以在對(duì)話中感知到用戶的喜、怒、哀、樂(lè)、害怕、困惑等各類(lèi)情緒,不僅能根據(jù)聲音的內(nèi)容來(lái)判斷,還能像朋友一樣用合適的情感回應(yīng)用戶。比如,用笑聲回應(yīng)開(kāi)心,用溫柔聲音安慰悲傷情緒。同時(shí),星火極速超擬人交互還能識(shí)別用戶咳嗽、貓和狗的叫聲等聲音事件,給出對(duì)應(yīng)的回復(fù)語(yǔ)。
以前語(yǔ)音交互中機(jī)器聲音無(wú)法調(diào)整,但有了星火極速超擬人交互,只要用戶語(yǔ)音發(fā)出指令,就可以控制超擬人在情感、風(fēng)格、方言、強(qiáng)度等表達(dá)方式上做出變化,比如,“用調(diào)侃的方式給我說(shuō)個(gè)笑話”、“用東北話給外地朋友介紹下鍋包肉”、“說(shuō)的更快一點(diǎn)”。
此外,星火極速超擬人交互還支持“角色扮演”,可以模仿不同的角色陪聊。比如,“模仿孫悟空的聲音來(lái)和小孩子對(duì)話”,超擬人就可以模仿孫悟空的聲音和人設(shè)和小朋友聊天。星火超擬人交互還可以模仿蠟筆小新、小豬佩奇等角色。
OpenAI的GPT-4o遲遲不來(lái),“中國(guó)版GPT-4o”搶先一步落地??拼笥嶏w星火極速超擬人交互代表了國(guó)產(chǎn)大模型逐步從追趕、對(duì)標(biāo)到進(jìn)行自主創(chuàng)新的差異化路線。
超擬人交互的極速秘訣是統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語(yǔ)音到語(yǔ)音端到端建模。傳統(tǒng)的處理方式是先把語(yǔ)音轉(zhuǎn)成文字,在通過(guò)大模型生成回復(fù)文本,然后再進(jìn)行語(yǔ)音合成輸出,需要分三步來(lái)工作。但端到端只有一個(gè)模型,大幅縮短了響應(yīng)時(shí)間,也提升了交互的擬人度和流暢度。
情感交互、語(yǔ)音可控等則得益于訊飛多維度的語(yǔ)音屬性解耦表征訓(xùn)練準(zhǔn)則,將內(nèi)容、音色、情感、語(yǔ)言、風(fēng)格都信息進(jìn)行解耦訓(xùn)練。星火極速超擬人交互也因此能夠更加靈活控制各類(lèi)元素,還能根據(jù)需求便捷定制,讓系統(tǒng)快速落地應(yīng)用。
正因?yàn)槿绱?,星火極速超擬人交互可以在8月底率先面向全民開(kāi)放使用??拼笥嶏w表示,基于全新端到端框架的基礎(chǔ),星火極速超擬人交互目前主要開(kāi)放語(yǔ)音模態(tài),未來(lái)會(huì)拓展到更多模態(tài),并帶來(lái)更多更實(shí)用、豐富的功能。
但這一次語(yǔ)音模態(tài)的跨越式升級(jí)帶來(lái)的多輪交互、語(yǔ)義理解、指令跟隨、邏輯推理、情感共鳴,已經(jīng)足以重寫(xiě)語(yǔ)音交互市場(chǎng),幫助20億臺(tái)智能終端向機(jī)器人升級(jí)并驅(qū)動(dòng)萬(wàn)物互聯(lián)的第六次產(chǎn)業(yè)浪潮井噴。
每一臺(tái)智能終端都能變成機(jī)器人
在2023年科大訊飛全球1024開(kāi)發(fā)者節(jié)上,華為科技有限公司副董事長(zhǎng)、輪值董事長(zhǎng)徐直軍曾表示,“華為公司在全球所有使用的智能終端的語(yǔ)音技術(shù),都是來(lái)自于科大訊飛,而且不僅僅是中文”。
第三方機(jī)構(gòu)QuestMobile的數(shù)據(jù)顯示,截至今年2月,華為的活躍終端設(shè)備數(shù)量已經(jīng)超過(guò)2.8億臺(tái)。而華為公布的數(shù)據(jù)則顯示,鴻蒙生態(tài)設(shè)備數(shù)量已經(jīng)突破了8億臺(tái)。這背后是龐大的移動(dòng)物聯(lián)網(wǎng),工信部公布的統(tǒng)計(jì)數(shù)據(jù)顯示,去年5月底,我國(guó)的移動(dòng)物聯(lián)網(wǎng)終端用戶超過(guò)20.5億,包括手機(jī)、家電、汽車(chē)以及初具規(guī)模的機(jī)器人。
語(yǔ)音是終端設(shè)備核心的交互方式之一,基于訊飛星火大模型在超擬人交互上取得的突破,終端設(shè)備可以實(shí)現(xiàn)“無(wú)感迭代”,從指令型終端晉升為可進(jìn)行多輪交互、可感知情緒、可定制化表達(dá)的擬人機(jī)器人。
試想一下,當(dāng)你的智能手機(jī)支持超擬人交互,它不僅能成為百科全書(shū),還可以從手機(jī)升級(jí)為得力助手和陪伴者。
家中的電視機(jī)、平板電腦,能幫助孩子學(xué)習(xí),也能為老人提供更多守護(hù),既是家里的管家,也是家庭教師。
智能汽車(chē)中有超擬人交互,不僅可以提升內(nèi)容的豐富度,也可以通過(guò)增加語(yǔ)音交互的場(chǎng)景從而保障駕駛員的安全。
更為重要的是,星火大模型對(duì)多語(yǔ)種、多方言的支持,星火超擬人交互可以讓每一臺(tái)升級(jí)為機(jī)器人的終端設(shè)備,保證用戶具備全球通行的能力。
以智能汽車(chē)為例,2023年,中國(guó)汽車(chē)出口量超過(guò)日本,躍居全球第一,而出海十強(qiáng)企業(yè)中,有8家都在和科大訊飛合作??拼笥嶏w多語(yǔ)種技術(shù)已經(jīng)可以覆蓋全球60多個(gè)語(yǔ)種,訊飛智能車(chē)載語(yǔ)音系統(tǒng)覆蓋23個(gè)主要語(yǔ)種,搭載該系統(tǒng)的車(chē)型已銷(xiāo)往亞洲、歐洲、南美等地的60多個(gè)國(guó)家和地區(qū)。
從產(chǎn)業(yè)發(fā)展來(lái)看,智能語(yǔ)音技術(shù)正處于“黃金時(shí)代”。國(guó)際數(shù)據(jù)公司IDC的統(tǒng)計(jì)數(shù)據(jù)顯示,全球智能語(yǔ)音市場(chǎng)規(guī)模由2017年的110.3億美元增長(zhǎng)至2022年的351.2億美元,增長(zhǎng)幅度218.4%,年復(fù)合增長(zhǎng)率為26.1%。
IDC還預(yù)計(jì),到2030年,全球智能語(yǔ)音服務(wù)市場(chǎng)規(guī)模將達(dá)約731.6 億美元,復(fù)合增長(zhǎng)率27%,保持穩(wěn)定增長(zhǎng)的趨勢(shì)。
具體到我國(guó),2022年我國(guó)智能語(yǔ)音市場(chǎng)達(dá)341億元,同比增長(zhǎng)13.4%。2017年至2022年增長(zhǎng)幅度為221.7%,復(fù)合增長(zhǎng)率為26.33%,稍微領(lǐng)先于全球市場(chǎng)的增長(zhǎng)。其中,科大訊飛在國(guó)內(nèi)市場(chǎng)的份額遠(yuǎn)遠(yuǎn)領(lǐng)先于百度、蘋(píng)果等公司。
今年1月,科大訊飛推出了星火大模型V3.5,5個(gè)月后就升級(jí)到了V4.0,整體能力超越了OpenAI的GPT-4 Turbo。僅僅兩個(gè)月后,星火大模型就支持了極速超擬人交互,為萬(wàn)物互聯(lián)時(shí)代入口探索出更多的交互可能。
訊飛星火大模型不僅在底層能力方面走得更穩(wěn),更在應(yīng)用上開(kāi)足了馬力,同步實(shí)現(xiàn)了對(duì)全球頂級(jí)大模型的趕超以及自身優(yōu)勢(shì)模型能力結(jié)合實(shí)際場(chǎng)景的落地,把新技術(shù)轉(zhuǎn)化為新應(yīng)用,為用戶創(chuàng)造了真正的價(jià)值。