文 | 驚蟄研究所 小滿
今年4月,沉寂一年多的王小川宣布進(jìn)入AI大模型領(lǐng)域再次創(chuàng)業(yè),與COO茹立云聯(lián)合成立大語(yǔ)言模型公司百川智能。在媒體溝通會(huì)上,王小川發(fā)布了未來(lái)20年借助語(yǔ)言AI要完成的目標(biāo),包括構(gòu)建中國(guó)最好的大模型底座,在搜索、多模態(tài)、教育和醫(yī)療等方面增強(qiáng),幫助大眾輕松、普惠地獲取世界知識(shí)和專業(yè)服務(wù)。
令人意想不到的是,僅僅過(guò)了4個(gè)月,百川智能就接連推出Baichuan-7B、Baichuan-13B系列、Baichuan-53B三款大模型。其中8月8日發(fā)布的Baichuan-53B參數(shù)量級(jí)達(dá)到530億,如期完成了王小川“在今年三季度發(fā)布一款參數(shù)量級(jí)在500億以上的大規(guī)模產(chǎn)品”的KPI。
從離開大眾視野到重回創(chuàng)業(yè)舞臺(tái),以及選擇大模型這一時(shí)下最熱門的風(fēng)口賽道,王小川的復(fù)出很難不吸引人們的關(guān)注。而眼下隨著百川智能以驚人的效率不斷進(jìn)行產(chǎn)品迭代與更新,人們?cè)诖髲S云集的大模型賽場(chǎng)上,也開始多了一些與眾不同的期待。
“遲到”的百川智能
作為曾經(jīng)的天才少年以及大眾印象中典型的“理工男”,王小川做事向來(lái)審慎,而在選擇大模型創(chuàng)業(yè)這件事情上,他卻罕見地表現(xiàn)出狂熱的情緒。
今年2月,美團(tuán)聯(lián)合創(chuàng)始人王慧文在朋友圈發(fā)布了自己的“人工智能宣言”,宣布個(gè)人出資5000萬(wàn)美元設(shè)立北京光年之外科技有限公司,將打造中國(guó)Open AI。而據(jù)極客公園媒體報(bào)道,王小川在看到王慧文的高調(diào)宣言后,也曾準(zhǔn)備對(duì)外宣布入局大模型領(lǐng)域。
王小川的激動(dòng)不無(wú)道理。科技創(chuàng)業(yè)賽道通常存在時(shí)間窗口,特別是對(duì)于大模型這類新興技術(shù)而言,越早公開項(xiàng)目越容易爭(zhēng)奪到有限的技術(shù)人才和資金資源。而且大模型對(duì)數(shù)據(jù)和訓(xùn)練量有著極大的需求,搶先發(fā)布產(chǎn)品能夠吸引合作機(jī)構(gòu)和用戶參與內(nèi)測(cè),為大模型提供充足的數(shù)據(jù)并不斷訓(xùn)練模型,推動(dòng)算法迭代和產(chǎn)品更新。
所以當(dāng)王慧文拿出5000萬(wàn)美元,并宣布已有頂級(jí)VC以2.3億美元認(rèn)購(gòu)下輪融資的“英雄帖”時(shí),無(wú)疑加劇了大模型創(chuàng)業(yè)團(tuán)隊(duì)的人才爭(zhēng)奪。頗為有趣的是,在王慧文宣布大模型創(chuàng)業(yè)一個(gè)月后,被稱為“搜狗輸入法之父”的馬占凱隨即在社交平臺(tái)上宣布加入光年之外。而百川智能在籌備階段,也吸引了搜狗原有班底以及其他大廠領(lǐng)軍人物的加入。
盡管情緒上有些激動(dòng),4月份官宣的百川智能還是比光年之外晚了將近2個(gè)月,相比光年之外的2.3億美金融資,百川智能5000萬(wàn)美元的啟動(dòng)資金也顯得有些單薄。但“遲到”并不意味著落后,相反這2個(gè)月讓王小川想清楚了很多事情。
從Open AI的發(fā)展歷程中可以看到,雖然前后融資超過(guò)了100億美金,但Open AI真正開始“燒錢”也是在GPT-3正式發(fā)布開始大規(guī)模訓(xùn)練之后。據(jù)國(guó)盛證券估算,GPT-3的單次訓(xùn)練成本高達(dá)140萬(wàn)美元,一些更大的LLM(大型語(yǔ)言模型)的訓(xùn)練成本則介于200萬(wàn)美元至1200萬(wàn)美元之間。因此,對(duì)于剛剛起步的百川智能來(lái)說(shuō),5000萬(wàn)美元足以完成項(xiàng)目初期從0到1的產(chǎn)品設(shè)計(jì)。
其實(shí)在資金之外,大模型項(xiàng)目更關(guān)鍵的還是人才積累問(wèn)題。Open AI的736名員工中,就有123名來(lái)自于谷歌、Meta以及蘋果公司的核心人才,半數(shù)以上員工曾在硬件或軟件公司工作。技術(shù)人才的積累,是Open AI在研發(fā)方面保持著一流水平的主要原因。而百川智能在最近4個(gè)月里,已經(jīng)將團(tuán)隊(duì)規(guī)模翻倍。
4月份接受采訪時(shí),王小川透露到月底團(tuán)隊(duì)成員將達(dá)到50人。而截至目前,百川智能的員工規(guī)模已經(jīng)達(dá)到113人左右。其中,技術(shù)人員的比例占70%-80%。作為一家成立不到半年的創(chuàng)業(yè)公司,百川智能的官宣或許有些“遲到”,但從結(jié)果來(lái)看,一切都在按照王小川的計(jì)劃進(jìn)行。
王小川的自信從何而來(lái)?
雖然起步晚,但百川智能4個(gè)月發(fā)布3款大模型的驚人效率,表現(xiàn)出了后發(fā)制人的競(jìng)爭(zhēng)意識(shí),并且每一款產(chǎn)品的體驗(yàn)方面也呈現(xiàn)出了差異化的優(yōu)勢(shì)。
早前Baichuan-7B和Baichuan-13B的跑分成績(jī)就曾令圈內(nèi)人士眼前一亮。在清華大學(xué)、上海交大、愛丁堡大學(xué)聯(lián)合創(chuàng)建的評(píng)測(cè)標(biāo)準(zhǔn)C-Eval中,Baichuan-7B經(jīng)過(guò)52個(gè)學(xué)科的測(cè)評(píng),最終獲評(píng)34.4分,在同量級(jí)產(chǎn)品中排名第一。
國(guó)際中/英文權(quán)威評(píng)測(cè)數(shù)據(jù)集(2023年6月15日)
Baichuan-13B則在自然科學(xué)、醫(yī)學(xué)、藝術(shù)、數(shù)學(xué)等領(lǐng)域大幅領(lǐng)先LLaMA-13B等同量級(jí)的大語(yǔ)言模型,在社會(huì)科學(xué)、人文科學(xué)等領(lǐng)域超過(guò)了ChatGPT。而在MMLU基準(zhǔn)上,Baichuan-13B超過(guò)了所有同量級(jí)開源模型。
對(duì)于最新發(fā)布的Baichuan-53B,王小川給出的評(píng)價(jià)是文科能力更好,也就是說(shuō)Baichuan-53B能夠很好地理解語(yǔ)言泛化背后的含義,具備理解古詩(shī)、生成風(fēng)格化文章的能力。對(duì)此,驚蟄研究所使用Baichuan-53B內(nèi)測(cè)版進(jìn)行了測(cè)試。
在連續(xù)面對(duì)“請(qǐng)寫一首以夏天為主題的五言絕句”的要求時(shí),Baichuan-53B給出的4首詩(shī)文存在明顯的重復(fù)。其中,4首絕句的最后一句都是“荷花盛開滿池塘”,3首的前兩句都是“夏日炎炎列日照,綠樹成蔭鳥兒叫?!辈⑶颐渴自?shī)相同的段落描寫的都是相同的意象,似乎是按照同一個(gè)模板排列組合而成。類似的現(xiàn)象,驚蟄研究所在使用百度的文心一言進(jìn)行對(duì)比測(cè)試時(shí),并沒(méi)有發(fā)生。
對(duì)于生成風(fēng)格化文章的能力,驚蟄研究所要求Baichuan-53B分別以徐志摩、卡夫卡和柯南·道爾的風(fēng)格“寫一條朋友圈,講述我今天吃了肯德基這件事”。從結(jié)果來(lái)看,雖然內(nèi)容結(jié)構(gòu)上也非常相似,但Baichuan-53B很好地抓住了三位作家的寫作風(fēng)格。
最令人驚喜的是,在“扮演”柯南·道爾寫作的文案中,Baichuan-53B還提到作者的代表《福爾摩斯探案集》以及其中的貝克街,讓人感覺到AI不是在單純地模仿作家風(fēng)格生成內(nèi)容,而是在生成作家自己的“朋友圈”。
由此看來(lái),Baichuan-53B在內(nèi)容生成方面不僅僅具備一定的理解能力,能夠模仿不同的文學(xué)風(fēng)格,在表述上也更像是人,而不是基于大數(shù)據(jù)和算法對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行排列組合。這也難怪王小川會(huì)自信地表示,“我們這個(gè)模型在文科領(lǐng)域走前列。”
“百模大戰(zhàn)”剛剛開場(chǎng)
ChatGPT問(wèn)世以來(lái),大模型風(fēng)口吸引了越來(lái)越多的玩家,從科技大廠到創(chuàng)業(yè)公司都開始將大模型作為自身的最大亮點(diǎn),竭力追逐行業(yè)熱點(diǎn)?;谶@一行業(yè)背景,王小川在官宣以創(chuàng)業(yè)的形式入局大模型時(shí)遭到了質(zhì)疑,不少網(wǎng)友都表示當(dāng)前大模型賽道大廠林立,獨(dú)立團(tuán)隊(duì)很難有機(jī)會(huì)。坦白說(shuō),截至目前,整個(gè)行業(yè)都還停留在“外行看熱鬧”的階段,這也反映了國(guó)產(chǎn)大模型團(tuán)隊(duì)仍然游離在B端和C端市場(chǎng)之間的現(xiàn)狀。
一個(gè)典型的現(xiàn)象是,OpenAI借助ChatGPT成為全球頂尖AI公司后,國(guó)內(nèi)一眾科技公司紛紛宣布推出類似ChatGPT的“聊天機(jī)器人”“圖片生成器”,并且學(xué)習(xí)Meta等科技大廠將大模型開源免費(fèi)商用。但從實(shí)際效果來(lái)看,這種“百模大戰(zhàn)”更像是為了搶關(guān)注、掙流量。
大模型開放免費(fèi)商用之后,給誰(shuí)用、怎么用,誰(shuí)又真的會(huì)用?這一連串的問(wèn)題沒(méi)有人問(wèn),真正使用了免費(fèi)大模型的企業(yè)也不會(huì)主動(dòng)宣揚(yáng)。“聊天機(jī)器人”的出現(xiàn),很大程度上只是為了證明科技公司具備一定的技術(shù)能力,而現(xiàn)階段大模型的商業(yè)化手段,仍然以B端市場(chǎng)為主。
例如百度的文心大模型涵蓋基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型的三級(jí)體系,廣泛應(yīng)用于電力、燃?xì)?、金融等產(chǎn)業(yè)領(lǐng)域;騰訊的混元大模型,則主要是幫助騰訊生態(tài)實(shí)現(xiàn)降本增效,在廣告領(lǐng)域可以自動(dòng)生成廣告文案和視頻;阿里的通義大模型,能夠跟人類進(jìn)行多輪的交互,擁有文案創(chuàng)作能力,能夠續(xù)寫小說(shuō)、編寫郵件等;華為盤古大模型則基于其訓(xùn)練出的2000億參數(shù)以中文為核心的預(yù)訓(xùn)練生成語(yǔ)言模型,發(fā)布了盤古氣象大模型、盤古礦山大模型、盤古OCR等多個(gè)行業(yè)大模型。
透過(guò)上述大模型的功能可以看到,科技大廠的大模型體現(xiàn)的是其背后在算法、算力、深度學(xué)習(xí)方面的技術(shù)實(shí)力,而這些技術(shù)能力服務(wù)的首要對(duì)象,自然是B端客戶。此前,華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊就曾表示,華為已經(jīng)幫助孵化了20多個(gè)基礎(chǔ)大模型,“中國(guó)大模型中約一半由昇騰AI支撐”。而B端市場(chǎng)用戶可以在通用大模型的基礎(chǔ)上,定向開發(fā)出符合自己需求的專用大模型輔助企業(yè)經(jīng)營(yíng),也可以針對(duì)C端市場(chǎng)開發(fā)大模型應(yīng)用產(chǎn)品。
在王小川選擇大模型創(chuàng)業(yè)被質(zhì)疑機(jī)會(huì)渺茫這件事情上,大廠在行業(yè)賽道搶先卡位,并不代表其已經(jīng)掌握行業(yè)競(jìng)爭(zhēng)的決勝權(quán)。過(guò)去因?yàn)閷?duì)B端市場(chǎng)以及自身業(yè)務(wù)的過(guò)度關(guān)注,使得大廠在技術(shù)創(chuàng)新方面缺乏一些主動(dòng)性。比如2016年開始就將AI作為戰(zhàn)略重心的百度,本就擁有開發(fā)ChatGPT類語(yǔ)言模型的底層技術(shù),甚至還具備絕無(wú)僅有的中文搜索場(chǎng)景,但直到ChatGPT爆火之后,百度才在今年3月份推出文心一言。
如同王小川對(duì)5000萬(wàn)美元啟動(dòng)資金的判斷一樣,大模型的決勝盤在于訓(xùn)練階段。在給大模型投喂數(shù)據(jù)這一關(guān)鍵性的成長(zhǎng)環(huán)節(jié),高素質(zhì)訓(xùn)練人才提供的高質(zhì)量數(shù)據(jù)集是大模型快速成熟、迭代的關(guān)鍵。比如ChatGPT早期就利用菲律賓的大學(xué)教授進(jìn)行數(shù)據(jù)標(biāo)注,而國(guó)內(nèi)進(jìn)行數(shù)據(jù)標(biāo)注的人才數(shù)量和水平均未能滿足行業(yè)所需。
因此,國(guó)產(chǎn)大模型市場(chǎng)雖然已有“百模大戰(zhàn)”的態(tài)勢(shì),但在最關(guān)鍵的訓(xùn)練環(huán)節(jié)上,大多數(shù)仍在同一起跑線上。王小川之所以有信心參與這一輪行業(yè)變革,想必也是看透了大模型不是大力出奇跡的發(fā)明創(chuàng)造,而是在底層技術(shù)之外,持續(xù)投入不斷迭代的產(chǎn)品革新。
關(guān)于國(guó)內(nèi)科技公司搶灘大模型的行業(yè)現(xiàn)象,知名投資人朱嘯虎和獵豹?jiǎng)?chuàng)始人傅盛曾在朋友圈激烈交鋒。朱嘯虎認(rèn)為行業(yè)泡沫明顯,甚至斷言絕大多數(shù)都會(huì)在年底死掉。而王小川在4月份成立百川智能時(shí)表示,“年底前我們會(huì)發(fā)布對(duì)標(biāo)GPT-3.5的大模型,有信心今年年底做到國(guó)內(nèi)最好?!?/p>
王小川的百川智能會(huì)是國(guó)產(chǎn)大模型的希望嗎?不如把懸念留到年底,到時(shí)再看國(guó)產(chǎn)大模型又是怎樣一番新局面。