6月9日,是科大訊飛成立的25周年。在司慶活動上,董事長劉慶峰在內(nèi)部講話中深入分析了如何看待語音和大模型的戰(zhàn)略機遇、如何看待科大訊飛當(dāng)前競爭態(tài)勢、如何打贏大模型之戰(zhàn)這三大問題,并坦言科大訊飛正經(jīng)歷創(chuàng)業(yè)以來最充滿挑戰(zhàn)、最扣人心弦、最激動人心的歷史時刻。
劉慶峰從大模型底座能力、承擔(dān)國家戰(zhàn)略任務(wù)、行業(yè)龍頭客戶招標(biāo)選擇三個關(guān)鍵維度,概括了訊飛星火為何能成為多領(lǐng)域頭部企業(yè)的首選。站在語音和大模型全新的戰(zhàn)略機遇交匯處,他強調(diào)了從技術(shù)中來到產(chǎn)品中去的產(chǎn)品導(dǎo)向,通過五大核心戰(zhàn)略來打贏大模型之戰(zhàn)。
堅守十年,迎來語音和大模型的全新戰(zhàn)略機遇
1999年,科大訊飛創(chuàng)始團隊定下公司使命“讓機器能聽會說,實現(xiàn)人類和人機信息溝通無障礙”。2014年,科大訊飛做出戰(zhàn)略判斷,提出下一個發(fā)展階段從“智能語音”到“認知智能”,“讓機器能聽會說,能理解會思考”。堅守十年之后,科大訊飛在2024年迎來了前所未有的全新戰(zhàn)略機遇。
如何看待語音產(chǎn)業(yè)和大模型的全新戰(zhàn)略機遇?
劉慶峰以一直引領(lǐng)行業(yè)熱潮的OpenAI為例,從通用底座的GPT-4,到有視覺功能的GPT-4V,到語音大模型Whisper、文生視頻大模型Sora,再到今年5月份發(fā)布的語音和音視頻能力都有所提升的GPT-4o,每一次更新都離不開底座大模型的智慧升級。同時,OpenAI把工程化也做得更加透徹,包括超擬人、全雙工對話、端到端的極致體驗速度,展示了人機交互能達到更好的水平,對整個語音市場都是一個非常大的推動。
劉慶峰表示,原來的語音合成、語音識別、機器翻譯等單點技術(shù),通過大模型的理解能力、文本生成能力在后臺加持提升,實現(xiàn)了語義理解、指令跟隨、多輪對話、情緒感知、超擬人合成,真正使得語音交互得到提升。
“在這個背景下,語音領(lǐng)域的幾乎所有應(yīng)用都值得用新方式重構(gòu)一遍,這就是現(xiàn)如今語音產(chǎn)業(yè)的全新戰(zhàn)略機遇?!眲c峰說,醫(yī)療導(dǎo)診機器人、酒店服務(wù)機器人、所有企業(yè)的客服機器人等都可以重新做一遍;7×24小時營業(yè)場所的部分崗位、企業(yè)中的服務(wù)類崗位等都可以用數(shù)字員工;汽車、手機、家庭助手等終端的智能語音服務(wù)也能得到很大提升。類似的應(yīng)用領(lǐng)域非常多,產(chǎn)業(yè)空間巨大。
他分析,GPT-4o對萬物互聯(lián)時代語音浪潮的推動,類似于當(dāng)年Siri對語音應(yīng)用的推動。它備受關(guān)注的原因有幾個點:超擬人合成,使得說話不再是朗讀腔調(diào),而是真的像人一樣自由對話;全雙工交互,可以同時(瞬時)進行信號的雙向傳輸,人機對話可以隨時打斷和繼續(xù);通過語音到語音的端到端建模實現(xiàn)快速反應(yīng)的極致交互體驗。
目前科大訊飛在超擬人合成技術(shù)方面,中英文、多語種都做到了國際領(lǐng)先。全雙工技術(shù)方面,科大訊飛早在2016年就定義了萬物互聯(lián)時代的人機交互標(biāo)準(zhǔn),包括遠場、多人、全雙工這些特性,2020年1月,在韓國釜山舉行的ISO/IEC JTC 1/SC 35全會上,科大訊飛主導(dǎo)提出了全雙工語音交互國際標(biāo)準(zhǔn),2023年5月正式頒發(fā)。端到端的語音技術(shù),背后有語音識別、文本生成、語音合成的過程,今年6月27日,訊飛星火V4.0發(fā)布也將給大家展示最新的端到端落地成果;端到端的語音技術(shù)建模,科大訊飛有全棧技術(shù)方案,也排在計劃中,需要算力和時間去實施,預(yù)計三季度推向市場。除此之外,科大訊飛還可提供GPT-4o沒有的一句話復(fù)刻、高噪音場景語音識別、多方言多語種免切換功能。
“大模型時代的語音技術(shù)本質(zhì)上是一次推動萬物互聯(lián)和原有人機交互場景重構(gòu)的巨大產(chǎn)業(yè)機會,科大訊飛一定能夠抓住最好的核心技術(shù)和應(yīng)用的紅利。”
劉慶峰透露,下一步,科大訊飛將發(fā)力遠場高噪音多人說話場景、高表現(xiàn)力個性化場景、云邊端一體化、軟硬件一體化,從技術(shù)優(yōu)勢、市場先機、落地成效構(gòu)建全方位持續(xù)領(lǐng)先優(yōu)勢。
大模型日益展現(xiàn)出的巨大潛力,讓行業(yè)賽道內(nèi)玩家云集,各種技術(shù)評測榜單層出不窮。劉慶峰一方面拿事實說話:訊飛星火在過程中不斷迭代,5月底上線的訊飛星火V3.5 Max版本已在文本生成、知識問答、邏輯推理、數(shù)學(xué)能力上超越GPT-4 Turbo 0429的最新版本;一方面也冷靜分析:大模型的能力可達程度也是分臺階的,“就算是榜單第一,就算是超過了GPT-4 Turbo當(dāng)前水平,面對今天的產(chǎn)業(yè)戰(zhàn)略機會,還要看大模型在哪些領(lǐng)域能真正實用。”
劉慶峰認為,大模型能力可達的程度是分臺階的,可以分三個層次:第一,一般難度任務(wù),比如文本摘要、文本生成、要素抽取、基本意圖的識別等,使用通用基座模型或數(shù)千量級的SFT(一周左右就能做完),能達到比較好的程度;第二,中等難度任務(wù),比如檢索類知識問答,需要有一個結(jié)合檢索和深度分析的場景,再如單場景的專用智能體,這就需要10萬級別的SFT并做比較深的優(yōu)化才能有性能的顯著提升;第三,高難度任務(wù),如高難度數(shù)學(xué)推理、長鏈條知識推理問答、開放領(lǐng)域的通用智能體等,短期內(nèi)難以達到好用水平,需要更大規(guī)模參數(shù)的大模型并配合專用領(lǐng)域的算法模型才有可能完成,目前還在探索階段。
舉個例子,保險的知識問答是人機對話的典型應(yīng)用領(lǐng)域。2023年11月,中國人民保險集團聯(lián)合認知智能全國重點實驗室和科大訊飛,研發(fā)了人保首個百億級參數(shù)的專屬問答領(lǐng)域大模型——“數(shù)智靈犀一人保大模型”。今年以來,通過數(shù)萬量級的SFT微調(diào)并采用全新技術(shù)方案,實現(xiàn)長文本能力的大幅提升,使得規(guī)模文檔的問答效果相對提升了70%以上。
在全新的戰(zhàn)略機遇面前,劉慶峰亦坦言:今天大模型拼的不僅僅是底座能力,還必須圍繞剛需的使用場景構(gòu)建真正的核心優(yōu)勢。
三個關(guān)鍵維度看訊飛星火的領(lǐng)先地位
劉慶峰從大模型底座能力、承擔(dān)國家戰(zhàn)略任務(wù)、行業(yè)龍頭客戶招標(biāo)選擇三個方面給員工闡釋了訊飛星火的領(lǐng)先地位。
大模型底座的技術(shù)實力上,從認知智能全國重點實驗室牽頭、中科院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟和長三角人工智能產(chǎn)業(yè)鏈聯(lián)盟共同參與設(shè)計的通用認知大模型評測體系看,今年5月底升級的訊飛星火V3.5 Max,已在多個能力上超過GPT-4 Turbo 0429的最新版本,在國內(nèi)可測的大模型中處于領(lǐng)先地位,尤其是在文本生成(特別是英文)、邏輯推理、數(shù)學(xué)和代碼能力上領(lǐng)先優(yōu)勢顯著?!爱?dāng)我們在通用能力上緊跟國際最先進水平以后,我們在教育、汽車、醫(yī)療等專用領(lǐng)域就可以實現(xiàn)超越?!保ㄗⅲ?024年高考期間,多家媒體和專業(yè)人士用高考中英文作文題和數(shù)學(xué)題對大模型能力進行測評,訊飛星火不僅占據(jù)榜首,并超過GPT-4o。)劉慶峰預(yù)告,6月27日訊飛星火V4.0發(fā)布,將會進一步強化國內(nèi)的領(lǐng)先地位。
從使命站位看,作為國內(nèi)第一個基于全國產(chǎn)算力平臺訓(xùn)練的大模型,完全自主可控的訊飛星火也承擔(dān)了國家發(fā)改委、工信部、科技部和中科院的多項國家戰(zhàn)略任務(wù),不斷夯實“國家隊”地位。“從長期來看,國家選大模型國家隊是綜合國力的較量,決定了國家的科研范式、產(chǎn)業(yè)形態(tài)和競爭格局?!?/p>
第三方的客戶選擇是大模型競爭力的重要體現(xiàn)之一,訊飛星火也成為多領(lǐng)域頭部企業(yè)的首選。
在央國企市場,訊飛星火已成為國家能源集團、中國石油、中國移動等行業(yè)龍頭客戶的選擇。其中國家能源集團的能源大模型招標(biāo)后選擇科大訊飛;與中國移動聯(lián)合打造的5G AI商務(wù)速記和全新移動APP,在5月23日第七屆數(shù)字中國建設(shè)峰會上正式發(fā)布;中國石油也選擇了和科大訊飛共同建設(shè)“昆侖大模型”。
經(jīng)過客戶的層層比選,訊飛星火已經(jīng)成為汽車、家電和機器人領(lǐng)域大模型應(yīng)用的首選品牌。
在汽車領(lǐng)域,奇瑞、蔚來、廣汽、一汽等國產(chǎn)品牌都在和訊飛合作,國際汽車品牌大眾在評估后也迅速落地應(yīng)用,于3月13日發(fā)布首款搭載星火大模型的車型“ID.UNYX” 。
在家電領(lǐng)域,海爾的家電大模型招標(biāo)后選擇了科大訊飛。公司還在和美的集團、海信集團、TCL集團等家電企業(yè)開展全方面合作。
科大訊飛與優(yōu)必選、傅利葉智能、宇樹科技、樸津智能等品牌開展合作,賦能近400家機器人企業(yè)。
劉慶峰說:“這些都是客戶慎重選擇、各家PK的結(jié)果,代表著訊飛星火真正的硬實力。”
訊飛星火的C端用戶粘性也越來越強,涌現(xiàn)出很多熱門助手。后臺數(shù)據(jù)顯示:繪畫大師使用次數(shù)1674萬;寫作助手使用次數(shù)596萬;文案助手使用次數(shù)400萬……
今年5月初教育部公布了首批18個“人工智能+高等教育”典型應(yīng)用場景案例。其中,北京郵電大學(xué)的“‘碼上’——大模型賦能的智能教學(xué)應(yīng)用平臺”、國家開放大學(xué)的“基于AI技術(shù)的大模型個性化英語教學(xué)創(chuàng)新實踐”,都是由訊飛星火大模型提供的技術(shù),劉慶峰認為:“除了大家都喜歡用的口語學(xué)習(xí)工具‘星火語伴’外,基于代碼能力延伸出個人助手和學(xué)習(xí)工具,也將一定會成為每個人非常重要的助手?!?/p>
從技術(shù)中來到產(chǎn)品中去 打贏大模型之戰(zhàn)的5大核心戰(zhàn)略
站在語音和大模型全新的戰(zhàn)略機遇交匯處,擁有領(lǐng)先的身位,科大訊飛究竟要如何打贏這場大模型之戰(zhàn)?
劉慶峰分析,大模型時代科大訊飛核心戰(zhàn)略組成包括:第一,賦能現(xiàn)有的軟硬件和行業(yè)產(chǎn)品,形成基本盤。背靠科大訊飛的根據(jù)地業(yè)務(wù),深入教育、醫(yī)療、工業(yè)、汽車、家電等行業(yè)賽道,同時打造基于大模型的翻譯機、學(xué)習(xí)機等王牌硬件產(chǎn)品。第二,開拓以央國企為代表的重點行業(yè)客戶市場。按照大模型能力可達程度的三個臺階,提供真正解決行業(yè)和企業(yè)剛需的方案。第三,開辟新興賽道的軟硬件一體化授權(quán)和新硬件機遇。比如機器人硬件、醫(yī)療硬件等。第四,在萬物互聯(lián)時代,AI助手的入口級戰(zhàn)略機遇。以“能聽會說”為前端,以“能理解會思考”為后端,將極大推動萬物互聯(lián)時代進程。第五,推進“訊飛超腦2030”計劃,邁向家庭陪伴機器人的萬億市場。
他也透露部分“大模型成績單”,其中大模型賦能的智能軟硬件產(chǎn)品成為業(yè)績增長的關(guān)鍵來源:今年618實現(xiàn)“開門紅”,C端智能硬件的銷售額實現(xiàn)了同比82%的增長;今年1-5月份科大訊飛AI學(xué)習(xí)機銷量增長153%,用戶凈推薦值持續(xù)行業(yè)第一;星火大模型賦能的智慧黑板,已形成代差級領(lǐng)先;中國汽車出口的多語種技術(shù)幾乎全部由科大訊飛提供;以智醫(yī)助理的能力延伸出來的家庭醫(yī)生隨訪和慢病管理已經(jīng)覆蓋了中國1.3億的居民;健康終端方面,訊飛助聽器的銷售額翻番增長,2023年在京東天貓618&雙十一獲行業(yè)第一。
訊飛的人工智能產(chǎn)業(yè)生態(tài)也在蓬勃發(fā)展,去年5月以來,訊飛開放平臺的開發(fā)者團隊增加了200萬以上、總數(shù)增長了66%,大模型相關(guān)注冊開發(fā)者團隊51萬,其中企業(yè)開發(fā)者32萬、個人開發(fā)者19萬。其中不僅僅提供軟件,更有軟硬件一體化解決方案。
劉慶峰表示,大模型應(yīng)用落地的一個關(guān)鍵是云邊端一體化和軟硬件一體化,在底座能力和垂直方向上要做透還要做好,用更小的算力做出相對更優(yōu)效果。“在云側(cè),我們有很好的大參數(shù)的通用模型(各種不同尺寸都有),也有星火一體機、‘飛星一號’算力平臺等完全自主可控的硬件支撐;在邊、端側(cè),科大訊飛有在汽車等行業(yè)落地的中等參數(shù)模型和軟硬件一體化方案,也有完全能夠在手機等智能終端上安裝和使用的‘小’模型和方案。從而形成了云邊端一體化和軟硬件一體化的綜合落地優(yōu)勢?!?/p>
船到中流浪更急,劉慶峰說,抓住大模型紅利的關(guān)鍵,最重要的還是“頂天立地”:核心技術(shù)保持業(yè)界領(lǐng)先,大模型底座做到領(lǐng)先,云邊端軟硬一體化做到領(lǐng)先?!皬募夹g(shù)中來,到產(chǎn)品中去,才能真正改變世界?!本劢故袌鰧?dǎo)向,做出典型領(lǐng)域的剛需產(chǎn)品,“把大模型賦能做到實處,把市場空間真正激發(fā),這是我們要做的事?!?/p>
會上,劉慶峰也明確,科大訊飛價值觀的第一個就是一切為客戶創(chuàng)造價值,公司下一步也將通過一系列機制推動面向戰(zhàn)略市場領(lǐng)域的產(chǎn)品聚焦,讓產(chǎn)品最終能真正給客戶創(chuàng)造剛性的價值,可衡量、可評價。
“本輪的通用人工智能,從國內(nèi)外的發(fā)展看都是‘大平臺加英雄主義’,沒有通用大模型的底座能力,沒有算法、數(shù)據(jù)等各方面的積累,就沒有辦法做出改變世界的大模型應(yīng)用和產(chǎn)品。所以必須站在大平臺之上?!眲c峰說,從底座能力和承擔(dān)的國家戰(zhàn)略任務(wù)看,訊飛星火就是這個大平臺,再往后大平臺屬性還會進一步增強;除此之外,還要有英雄主義,讓每個人的創(chuàng)造力真正被激發(fā)出來,成為充滿想象力、充滿戰(zhàn)斗力、充滿開拓精神的英雄。
*文中數(shù)據(jù)來源于實際應(yīng)用和外部榜單