文|偲睿洞察 Renee
編輯|孫越
用“不完美小孩”,形容目前的百度文心一言,再合適不過了。
“不完美”體現(xiàn)在,用戶們連著五天測試發(fā)現(xiàn),文心一言偏科較為嚴(yán)重:
是目前唯一能夠直接進(jìn)行“文生圖”的模型,在文學(xué)創(chuàng)作例如詩詞上有著“天賦”,但在“數(shù)學(xué)課”、“計(jì)算機(jī)編程課”較為差勁。
同時,文心一言也有著“小孩”的浮躁與誠實(shí):
不得不說,百度前期造勢過猛。百度Q4季度財(cái)報(bào)以及高管發(fā)言無不預(yù)告著,文心一言成為百度2023年及之后的主題曲:
在發(fā)給百度全員的財(cái)報(bào)信中,李彥宏重點(diǎn)介紹了百度將在三月份推出的生成式AI產(chǎn)品文心一言(ERNIE Bot),宣布計(jì)劃將多項(xiàng)主流業(yè)務(wù)與文心一言整合。
同時2月份以來,各行各業(yè)接入百度文心一言消息不斷,多次霸占新聞頭條。
一頓操作猛如虎,讓人誤以為百度已經(jīng)完完全全準(zhǔn)備好了。
于是在發(fā)布會,百度高管誠實(shí)表示文心一言還不夠成熟之時,百度股價應(yīng)聲而落:李彥宏誠實(shí)指出,自己體驗(yàn)時并不完美,這類大語言模型還遠(yuǎn)未到發(fā)展完善的階段;百度首席技術(shù)官王海峰也提到模型目前“訓(xùn)練不夠充分”。
于是,自3.16下午兩點(diǎn)發(fā)布會開始之后,百度一度大跌10%。
(百度近日股價變動 圖源:百度股市通)
而當(dāng)用戶真正去感受文心一言產(chǎn)品之時,發(fā)現(xiàn)其綜合來看表現(xiàn)還算合格,3.17過后,股民們又陸陸續(xù)續(xù)跑來鼓勵這個“不完美小孩”。
股價跌也跌了,漲也漲了,大家罵也罵了。最終,我們還是得冷靜下來,為這個不完美小孩,找一找差距,謀一謀出路。
01 不夠理性的偏科生
3.16日,文心一言站上考場,“考官”們蜂擁而上,對其進(jìn)行全天的“提問”。
考慮到個人測評樣本過少,小編以國金證券券商測評結(jié)果為主,以機(jī)器之心、品玩等科技賽道自媒體測試結(jié)果為輔,對文心一言這五天的表現(xiàn)進(jìn)行評估。結(jié)果發(fā)現(xiàn),文心一言“同學(xué)”偏科較為嚴(yán)重:
(三大模型測評結(jié)果綜合對比 圖源:國金證券研究所)
在推理類問題中,文心一言在演繹推理、邏輯推理等領(lǐng)域表現(xiàn)遜于GPT系列模型。例如在面對以下問題時,文心一言表現(xiàn)欠佳,GPT-3.5和4持平:
在歸納總結(jié)類任務(wù)中,文心一言表現(xiàn)較好。品玩讓文心一言和GPT-3分別給出一個用 5 塊錢度過一周的方案,文心一言、GPT-3的回答是:
可以看到,文心一言給出了更為貼合現(xiàn)實(shí)的方案;而GPT-4 的回答,便是聽君一席話,如聽話一席。
在數(shù)學(xué)和代碼類問題中,文心一言與GPT-3、GPT-4便有著較大的差距:
而在一些崗位的測試中,三大模型均能較好地完成Al生活助手、產(chǎn)品推薦等文本生成任務(wù),其中在教育輔助崗位,在文言文和古詩詞理解運(yùn)用方面,文心一言有著“本土優(yōu)勢”,表現(xiàn)略佳。
(文心一言翻譯情況 圖源:機(jī)器之心)
一整個測試下來,文心一言偏科還挺嚴(yán)重:一方面邏輯推理欠佳,對數(shù)學(xué)、計(jì)算機(jī)編程幾乎“一竅不通”;一方面歸納總結(jié)能力較強(qiáng),在文學(xué)創(chuàng)作、古詩文理解上有著“天賦”,有著文科生的潛質(zhì)。
同時,也有著做“藝術(shù)生”的潛質(zhì):文心一言具備多模態(tài)生成能力,包括生成圖片、生成語音(包括方言)以及生成視頻的能力。以生成圖片為例,機(jī)器之心讓文心一言生成一張湖心亭看雪的水墨畫,其生成速度、效果都在中上水準(zhǔn)。
(文心一言文生圖情況 圖源:機(jī)器之心)
綜合看下來,在這五天的小考內(nèi),文心一言基于“本土優(yōu)勢”展現(xiàn)出自己在文學(xué)、藝術(shù)等方面的長處,相應(yīng)地也暴露出在理科、以及邏輯思辨能力的較大短板。
文心一言,是個不夠理性的偏科生。
02 成長的代價
經(jīng)歷過這五天上千萬條拷問,文心一言應(yīng)該能夠“意識到”,自己需要惡補(bǔ)“理性思維”,從而能夠在畢業(yè)時,cover住更多的崗位。
此刻,文心一言便需要向目前班級上邏輯思維能力更好的ChatGPT,找找差距,取取經(jīng)。
在AIGC時代,算法、數(shù)據(jù)、算力是衡量差距的三把標(biāo)尺:
在算法層面,百度與ChatGPT事實(shí)上是站在同一起跑線上的——百度與OpenAI、谷歌都是基于Transformer模型去做不同的變體,延展出各自的深度學(xué)習(xí)框架以及再上層的大模型。
(芯片—AIGC框架圖 圖源:浙商證券)
在數(shù)據(jù)層面,二者差距較為明顯:相比于百度文心一言,ChatGPT經(jīng)歷了多次模型訓(xùn)練,并被無數(shù)個“考官”進(jìn)行無數(shù)次指點(diǎn),同時有專門的數(shù)據(jù)標(biāo)注人員進(jìn)行方向的修正。
據(jù)華西證券表示,ChatGPT大模型最大的特點(diǎn)便是,引入人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。
RLHF簡單來說,就是用人工標(biāo)注的方式,不斷地將結(jié)果去反饋給模型:回答好的給出正反饋(例如圖上的Correct),回答不好的,就通過加分機(jī)制的方式讓模型進(jìn)一步的自我迭代,并進(jìn)行不斷的調(diào)優(yōu),直到回答正確。
(ChatGPT答復(fù)情況 圖源:知乎博主LowinLi)
百度同樣也采用RLHF,并輔以“對話增強(qiáng)、有監(jiān)督精調(diào)”等機(jī)制,也就是說底層架構(gòu)、技術(shù)路徑相似,百度缺的是大量語料庫的訓(xùn)練與反饋。畢竟,未被RLHF狠狠修正過的ChatGPT,在剛上線的時候也出現(xiàn)了大量混亂的回答。
(百度文心一言模型技術(shù) 圖源:百度)
而在算力層面的差距,基本上可以靠錢填平。
這是因?yàn)椋M管美國出口限制政策影響較大,國內(nèi)仍能采購性能更低的前代算力芯片,或者是使用自己研發(fā)的芯片,只是相對犧牲了計(jì)算速度。
同時,國內(nèi)頭部科技企業(yè)能夠?qū)崿F(xiàn)算力資源部分自給;國家也在重視算力的建設(shè):2月24日,東數(shù)西算一體化算力服務(wù)平臺在寧夏銀川正式上線發(fā)布。該平臺將瞄準(zhǔn)ChatGPT運(yùn)算能力,以支撐中國人工智能運(yùn)算平臺急需的大算力服務(wù)。
不過,相比于阿里巴巴和華為,百度的數(shù)據(jù)中心容量有待提升。
(全球前十大科技企業(yè)數(shù)據(jù)中心容量排名 圖源:華西證券)
總結(jié)來看,文心一言的“文具”已然備齊,缺的是大把時間、大量資金去訓(xùn)練。
那么,“家長”百度若想讓這個不完美小孩達(dá)到班級中上水平,需要砸多少錢?
根據(jù)華西證券測算,在不考慮人力支出及維護(hù)費(fèi)用條件下,百度需要補(bǔ)足的成本拆分為訓(xùn)練成本、推理成本及數(shù)據(jù)標(biāo)注成本,分別需要2.29億元、13.62億元、0.05億元。
(類ChatGPT應(yīng)用中期年均成本測算 圖源:華西證券)
也就是說,百度需要保持年均16億元的投入,將有可能達(dá)到ChatGPT目前的能力。除此之外,文心一言為成長付出的代價包括但不限于:
為保證以上流程能夠正常運(yùn)轉(zhuǎn),百度還需吸納更多的高價AI人才:在獵聘大數(shù)據(jù)研究院近期發(fā)布的AI人才報(bào)告中顯示,2022年AI相關(guān)崗位招聘的平均年薪為33.15萬,比互聯(lián)網(wǎng)崗位高4.27萬;而2023年以來的一個多月,AI崗位招聘的平均年薪已達(dá)到42.51萬元,比上一年高出9萬多;
為提供充足的算力,百度需要耗費(fèi)更多資金建立并運(yùn)作更多的數(shù)據(jù)中心:根據(jù)百度以往數(shù)據(jù)來看,一個數(shù)據(jù)中心的耗費(fèi)在47億元-100億元區(qū)間。
目前來看,百度有實(shí)力給“孩子”培訓(xùn)并讓其吃飽喝足:
在2017年,百度提出“All IN AI”之后,百度持續(xù)為AI輸血。在2022全年資本開支(除愛奇藝)高達(dá)181億元。
并且現(xiàn)金流也較為充沛:截至2022年末,百度公司現(xiàn)金、現(xiàn)金等價物及受限現(xiàn)金為652億元。
這個不完美小孩,在百度“富?!钡募彝キh(huán)境下,未來或許會有著不錯的發(fā)展。
03 百度搜索先吃到紅利?
當(dāng)大量的錢、人才、算力砸進(jìn)去,文心一言具備了成熟的思維能力之后,百度要怎么走?
從目前來看,百度文心一言有兩條“創(chuàng)業(yè)”方向:
1)為開發(fā)者直接提供API調(diào)用接口并收費(fèi)。
據(jù)報(bào)道,“文心一言”已經(jīng)以API形式接入650家企業(yè),發(fā)布當(dāng)日已有6.5萬家企業(yè)申請測試,簽約5家客戶。
也就是說,B端商業(yè)化的思路已經(jīng)顯現(xiàn)。
但不排除后期因?yàn)轭A(yù)訓(xùn)練語言模型規(guī)模急劇增長,成本實(shí)在“蚌埠”住,最后無法持續(xù)提供服務(wù)的情況:OpenAI便是出于商業(yè)角度考慮和高昂的端側(cè)微調(diào)成本,大規(guī)模預(yù)訓(xùn)練語言模型不再被開源。
2)將AGI技術(shù)嵌入到自身成熟應(yīng)用中,提供更強(qiáng)用戶體驗(yàn),進(jìn)而推動用戶為附加服務(wù)付費(fèi)。例如,微軟將GPT模型嵌入其搜索引擎Bing中:
2022年2月,微軟新推出NewBing,該模塊能夠與用戶對話、協(xié)助用戶起草文本;
(Bing廣告情況 圖源:華西證券)
目前,Bing已經(jīng)靠著ChatGPT,在短時間內(nèi),火速對巨頭谷歌產(chǎn)生一定的威脅:
data.ai數(shù)據(jù)顯示,新功能上線當(dāng)日,必應(yīng)Bing應(yīng)用程序的全球下載量在一夜之間猛增十倍;截至3月10日,Bing活躍用戶已突破1億人,增幅超600%。
(NewBing下載量 圖源:華西證券)
撇去ChatGPT本身熱度,Bing收獲青睞的原因是,搜索引擎與類ChatGPT產(chǎn)品能夠雙向互補(bǔ):
1)搜索引擎能夠彌補(bǔ)GPT的“消息滯后”。ChatGPT的訓(xùn)練數(shù)據(jù)集仍停留在2021年,因此難以回答時效性問題,而BingChat能夠基于實(shí)時更新的搜索庫進(jìn)行回答。
2)ChatGPT能夠?qū)λ阉鹘Y(jié)果進(jìn)行直觀集成,無需將鏈接一個個點(diǎn)開尋求答案,大大優(yōu)化了用戶體驗(yàn)。同時在此基礎(chǔ)上,也增添了趣味性:微軟為NewBing設(shè)置了三種性格狀態(tài),用戶可根據(jù)偏好自行設(shè)定對話模型的回應(yīng)風(fēng)格。
基于此,更為人性化的、信息更為“新鮮”、全面的NewBing能夠長時間地留住客戶。用戶在手,NewBing變現(xiàn)的野心已經(jīng)遮不住了:廣告引流已經(jīng)開始。
目前,據(jù)華西證券發(fā)現(xiàn),Chat界面提供了新的廣告位:Bing已經(jīng)在回復(fù)框中,對電商產(chǎn)品進(jìn)行展示引流。
(Bing廣告情況 圖源:華西證券)
參照NewBing,百度搜索或許能夠第一個吃到文心一言的紅利。
但百度需要做到的是,在發(fā)展文心一言的同時,也要好好優(yōu)化一下百度搜索,目前,百度搜索的使用體驗(yàn)并不友好:
根據(jù)偲睿洞察記者調(diào)查發(fā)現(xiàn),在搜索“下載網(wǎng)易云音樂”這類明確的指令之下,百度有1億條結(jié)果,一直到第18條才出現(xiàn)官網(wǎng)下載地址,前18條里還有6個廣告,相比之下,必應(yīng)有7億多個結(jié)果,在第5條出現(xiàn)了官網(wǎng)下載地址;
在搜索“五官醫(yī)院”時,必應(yīng)出現(xiàn)3.95億條結(jié)果,第一個詞條是出現(xiàn)最近的五官醫(yī)院的官網(wǎng)以及地址信息,之后是附近五官醫(yī)院的地址,而百度出現(xiàn)41萬條結(jié)果,迎面的幾條都是機(jī)器人在線醫(yī)療......
當(dāng)百度搜索更為精準(zhǔn)之后,文心一言在此基礎(chǔ)上,才能夠提供更個性化、更高效的搜索服務(wù),從而提升搜索的變現(xiàn)效果。
除了搜索之外,百度還將其融入智能云、Apollo自動駕駛、小度智能設(shè)備等:在財(cái)報(bào)后的全員信中,李彥宏表示,百度的多項(xiàng)主流業(yè)務(wù)與文心一言整合。
而這一切的一切,都得等文心一言這個偏科生更“理性一點(diǎn)”。