文 | 連線Insight 王慧瑩
編輯 | 子夜
大模型應(yīng)用大戰(zhàn)即將一年整,競(jìng)爭(zhēng)依然激烈。
12月18日的火山引擎Force冬季大會(huì)上,字節(jié)跳動(dòng)“豆包全家桶”又迎來(lái)了新成員。豆包視覺(jué)理解模型正式亮相,其具備更強(qiáng)的內(nèi)容識(shí)別、理解和推理、視覺(jué)描述等能力;明年1月,豆包視頻生成大模型也將面向企業(yè)開(kāi)放服務(wù)。
除了新成員的加入,豆包大模型多款產(chǎn)品也迎來(lái)更新迭代。比如,豆包通用模型pro已全面對(duì)齊GPT-4o;音樂(lè)模型從生成60秒的簡(jiǎn)單結(jié)構(gòu),升級(jí)到生成3分鐘的完整作品;文生圖模型2.1版本接入即夢(mèng)AI和豆包App……
用戶正在使用豆包視頻理解模型,圖源豆包微信公眾號(hào)
無(wú)論是基礎(chǔ)層,還是應(yīng)用層,字節(jié)都在綜合布局并持續(xù)迭代升級(jí)。截至目前,字節(jié)正在運(yùn)營(yíng)的AI應(yīng)用大約有20款,且大部分是在2024年以后發(fā)布的。
進(jìn)入到今年下半年,隨著越來(lái)越多大模型應(yīng)用的出現(xiàn),行業(yè)卷起了新高度:C端卷用戶,B端卷價(jià)格。
“飽和式”攻擊的豆包,在哪個(gè)領(lǐng)域都上演了“后來(lái)者居上”的戲碼。
用戶上,據(jù)QuestMobile數(shù)據(jù),字節(jié)豆包App今年9月的日活已達(dá)760萬(wàn),成為中國(guó)日活最大的AI產(chǎn)品。
價(jià)格上,此次豆包視覺(jué)理解模型千tokens輸入價(jià)格僅為3厘,比行業(yè)價(jià)格便宜85%;此前豆包文字大模型0.8厘就能處理1500多個(gè)漢字的價(jià)格,比行業(yè)便宜99.3%。
“卷王”豆包的另一面是行業(yè)正式進(jìn)入混戰(zhàn)后的生存之戰(zhàn)。盡管現(xiàn)在談?wù)摗癒iller APP”還為時(shí)尚早,但商業(yè)化是個(gè)繞不開(kāi)的話題。瘋狂投入后,豆包也要學(xué)會(huì)賺錢。
與年初字節(jié)跳動(dòng)CEO梁汝波在全員會(huì)上反思“慢”截然不同,這一年字節(jié)以豆包家族在大模型行業(yè)進(jìn)行的進(jìn)攻,又快又狠。豆包在行業(yè)的增長(zhǎng)再次驗(yàn)證了字節(jié)“大力出奇跡”的路線,也給行業(yè)帶來(lái)新的沖擊和思考。
01 降價(jià)、買量,豆包拼力謀增長(zhǎng)
今年年初,字節(jié)跳動(dòng)CEO梁汝波在內(nèi)部講話中提到“遲鈍”二字,直指字節(jié)對(duì)大模型的敏感度不如創(chuàng)業(yè)公司。
“直到2023年才開(kāi)始討論GPT,而業(yè)內(nèi)做得比較好的大模型創(chuàng)業(yè)公司都是在2018年至2021年創(chuàng)立的”梁汝波直言。
今年5月,大模型名字統(tǒng)一“豆包”后,字節(jié)正式走向了大模型發(fā)展的高速路。據(jù)DataEye研究院不完全統(tǒng)計(jì),去年8月至今,字節(jié)跳動(dòng)在AI領(lǐng)域一共推出包括豆包大模型家族在內(nèi)的17款大模型、2個(gè)智能體開(kāi)發(fā)平臺(tái)。
正值大模型從“百模大戰(zhàn)”轉(zhuǎn)向應(yīng)用落地期,各家都在緊密跟隨行業(yè)的風(fēng)口,以期走在前列。
在應(yīng)用層面,素有“APP工廠”之稱的字節(jié),決心更大。據(jù)不完全統(tǒng)計(jì),2024年至今,字節(jié)在國(guó)內(nèi)外推出包括豆包在內(nèi)的20余款A(yù)pp,覆蓋AI聊天助手、AI視頻工具、AI娛樂(lè)應(yīng)用、辦公等多個(gè)領(lǐng)域。
其中,有對(duì)標(biāo)ChatGPT的“豆包”、對(duì)標(biāo)Sora的“即夢(mèng)”、對(duì)標(biāo)MiniMax旗下社交AI星野的“貓箱”、對(duì)標(biāo)妙鴨相機(jī)的“星繪”、對(duì)標(biāo)Suno AI 的“海綿音樂(lè)”……
12月18日的火山引擎Force冬季大會(huì)上,字節(jié)跳動(dòng)正式發(fā)布豆包視覺(jué)理解模型、豆包3D模型。會(huì)上,火山引擎宣布2025年春季將推出具備更長(zhǎng)視頻生成能力的豆包視頻生成模型1.5版,豆包端到端實(shí)時(shí)語(yǔ)音模型也將很快上線。
其中,跑得最快的莫過(guò)于以豆包為中心的大模型生態(tài)。
據(jù)量子位智庫(kù)數(shù)據(jù),今年5-7月,豆包APP日新增用戶從20萬(wàn)迅速飆升至90萬(wàn),并在9月率先成為國(guó)內(nèi)用戶規(guī)模破億的首個(gè)AI應(yīng)用;11月,平均每天有80萬(wàn)新用戶下載豆包,單日活躍用戶近900萬(wàn),MAU僅次于ChatGPT;截至11月底,豆包2024年的累計(jì)用戶規(guī)模已超過(guò)1.6億。
豆包這匹“黑馬”奔跑的速度如此之快,離不開(kāi)字節(jié)的“大力出奇跡”。
今年年中開(kāi)始,大模型C端應(yīng)用陷入了一場(chǎng)激烈的流量爭(zhēng)奪賽。無(wú)論是線上平臺(tái),還是線下公開(kāi)場(chǎng)所,都能看到大模型廠商的身影。創(chuàng)業(yè)公司和互聯(lián)網(wǎng)巨頭,無(wú)一例外地陷入了大模型應(yīng)用的“用戶焦慮”。
據(jù)AppGrowing統(tǒng)計(jì),截至11月15日,國(guó)內(nèi)十款A(yù)I原生應(yīng)用合計(jì)投放金額達(dá)15億元,其中10月超過(guò)3.5億元,為歷史最高。其中,Kimi和豆包是投放最瘋狂的兩個(gè)產(chǎn)品,分別投放了5.4億元和4億元。
拉長(zhǎng)時(shí)間線看,豆包的投流顯然更猛烈。據(jù)AppGrowing統(tǒng)計(jì),2024年4月—5月,豆包投放金額預(yù)計(jì)為1500萬(wàn)元-1750萬(wàn)元。6月上旬,豆包再次啟動(dòng)新一輪大規(guī)模的廣告投放活動(dòng),投放金額高達(dá)1.24億元。
背靠抖音這一大流量池,豆包的出現(xiàn)頻率也越來(lái)越高。在抖音,字節(jié)幾乎屏蔽了除豆包以外所有AI應(yīng)用的投放,只留給自家的豆包。
不得不承認(rèn),面對(duì)同質(zhì)化的市場(chǎng)競(jìng)爭(zhēng),燒錢換流量,是移動(dòng)互聯(lián)網(wǎng)時(shí)代的慣用做法,而豆包背靠強(qiáng)大的字節(jié)生態(tài),有著天生的優(yōu)勢(shì)。
大模型的特殊性在于,AI產(chǎn)品仍存在用戶接受度和留存率的挑戰(zhàn),重金投流能否換來(lái)超級(jí)應(yīng)用無(wú)法確定,但至少目前給豆包帶來(lái)了肉眼可見(jiàn)的用戶增長(zhǎng)。
同樣是花錢,與C端花錢投流相對(duì),隨著大模型推理側(cè)成本的下降,在B端大模型廠商今年集體降價(jià),行業(yè)從“以分計(jì)價(jià)”進(jìn)入“以厘計(jì)價(jià)”的時(shí)代。
豆包降價(jià)的動(dòng)作同樣很明顯。今年5月火山引擎Force秋季大會(huì)上,豆包主力模型在企業(yè)市場(chǎng)的定價(jià)比行業(yè)價(jià)格降低了99.3%,0.8厘就能處理1500多個(gè)漢字的價(jià)格;此次的火山引擎Force冬季大會(huì)上,豆包視覺(jué)理解模型千tokens輸入價(jià)格僅為3厘,一元錢就可處理284張720P的圖片,比行業(yè)價(jià)格便宜85%。
廠商讓利降價(jià)的意圖很明顯,讓算力技術(shù)普惠的同時(shí),讓企業(yè)用戶使用AI應(yīng)用的意愿更高端。數(shù)據(jù)顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過(guò)4萬(wàn)億,較七個(gè)月前首次發(fā)布時(shí)增長(zhǎng)了33倍。
回過(guò)頭來(lái)看2024年,圍繞豆包生態(tài),字節(jié)做AI的決心很大,也從資源、速度等方面證明了自己作為互聯(lián)網(wǎng)巨頭的實(shí)力。增長(zhǎng)的底氣有了,下一步的關(guān)鍵便是讓大模型更好用。
02 一邊提技術(shù)、一邊“接地氣”,豆包能否更接近用戶是關(guān)鍵
AI浪潮奔涌?jī)赡?,行業(yè)不斷進(jìn)入新階段,不變的是玩家們對(duì)技術(shù)的迭代。
今年下半年,一個(gè)明顯的變化在于,以ChatGPT為代表的大語(yǔ)言模型局限性日益顯現(xiàn)。
語(yǔ)言大模型無(wú)法與物理世界互動(dòng),也不具備對(duì)人類價(jià)值觀的理解能力,玩家們都在尋找下一個(gè)更“類人”的模型或應(yīng)用。9月,OpenAI推出的會(huì)思考的o1推理模型;12月,李飛飛推出的3D世界模型都是在這一思路下應(yīng)運(yùn)而生。
大模型這列列車高速前進(jìn),對(duì)于玩家而言,最重要的是拿到車票。反觀國(guó)內(nèi),對(duì)標(biāo)OpenAI,豆包也算是走在技術(shù)前列的大模型玩家。
此次大會(huì)上,豆包發(fā)布的視覺(jué)理解模型,具備更強(qiáng)的內(nèi)容識(shí)別、理解和推理、視覺(jué)描述等能力。
新的視頻理解模型下,用戶可以同時(shí)輸入文本和圖像相關(guān)的問(wèn)題,使用起來(lái)更便捷;同時(shí),模型能夠綜合理解能力給出準(zhǔn)確的回答。
也就是說(shuō),相比于此前的文生視頻大模型,此次視覺(jué)理解模型更能讀懂人的需求,也能幫助人類提高復(fù)雜工作的工作效率。比如,在教育場(chǎng)景中,為學(xué)生優(yōu)化作文、科普知識(shí);在旅游場(chǎng)景中,幫助游客看外文菜單、講解照片中建筑的背景知識(shí)等。
據(jù)火山引擎介紹,目前豆包視覺(jué)理解模型已經(jīng)接入豆包App和PC端產(chǎn)品。某種意義上,視覺(jué)理解大模型是行業(yè)技術(shù)迭代的標(biāo)志。相比于語(yǔ)言大模型,視頻大模型能拓展大模型的能力邊界,同時(shí)也會(huì)降低人們與大模型交互的門檻,為大模型解鎖更豐富的應(yīng)用場(chǎng)景。
視覺(jué)能力是大模型能力的核心已經(jīng)是共識(shí),視覺(jué)輸入占據(jù)人類交互信息的絕大多數(shù),為了讓大模型離AGI更進(jìn)一步,大家都在加速。
實(shí)際上,字節(jié)對(duì)視覺(jué)化、多模態(tài)模型的重視度肉眼可見(jiàn)的提升。12月11日,據(jù)智能涌現(xiàn)報(bào)道,字節(jié)提升了即夢(mèng)的產(chǎn)品優(yōu)先級(jí),嘗試用新的路徑打造AI時(shí)代的“抖音”。字節(jié)計(jì)劃后續(xù)把更多資源向更多模態(tài)的產(chǎn)品形態(tài)轉(zhuǎn)移,即夢(mèng)會(huì)承擔(dān)更大的希望。
即夢(mèng)AI隸屬于字節(jié)跳動(dòng)旗下剪映業(yè)務(wù),定位是AI內(nèi)容平臺(tái),支持通過(guò)自然語(yǔ)言及圖片輸入,生成高質(zhì)量的圖像及視頻。
此次大會(huì)上,剪映業(yè)務(wù)負(fù)責(zé)人張楠表示,“即夢(mèng),希望成為想象力世界的相機(jī)”似乎也在回應(yīng)這一戰(zhàn)略。具體動(dòng)作上,即夢(mèng)AI圖片模型2.1正式上線,其可以“一句話生成海報(bào)”,支持通過(guò)簡(jiǎn)單的指令,控制文字的顏色和位置等元素,快速生成中英文圖像海報(bào)。
值得一提的是,豆包還發(fā)布了3D生成模型,該模型與火山引擎數(shù)字孿生平臺(tái)veOmniverse結(jié)合使用,可以完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持AIGC創(chuàng)作的物理世界仿真模擬器。
不僅如此,豆包大模型家族多款產(chǎn)品都迎來(lái)重要更新。
豆包通用模型pro新版本綜合任務(wù)處理能力較5月份提升32%,全面對(duì)齊GPT-4o,使用價(jià)格僅為后者的1/8在推理上提升13%;
豆包音樂(lè)模型4.0支持三分鐘的全曲創(chuàng)作,支持歌詞局部修改,曲風(fēng)連貫等功能;
豆包文生圖模型2.1支持“一鍵P圖”,可以高精度指令理解,對(duì)中英文、專有名詞“來(lái)者不拒”。
至此,豆包全家桶升級(jí)的同時(shí),豆包補(bǔ)足其在視覺(jué)交互上的短板,又開(kāi)拓了自身模型的場(chǎng)景邊界,還在算力成本上做了下降,本質(zhì)上,都是為了讓大模型更接近用戶。
今年5月,字節(jié)跳動(dòng)產(chǎn)品與戰(zhàn)略副總裁朱駿分享了字節(jié)跳動(dòng)為豆包這類產(chǎn)品定義了三個(gè)產(chǎn)品設(shè)計(jì)原則:第一條,“擬人化”;第二條,離用戶很近,隨時(shí)伴隨用戶,嵌入用戶的不同使用環(huán)境,應(yīng)該是豆包到用戶身邊,而不是用戶到豆包身邊;第三條,個(gè)性化。
讓豆包回歸用戶,很重要的一點(diǎn)是讓用戶了解AI,滿足用戶對(duì)AI的好奇心。據(jù)中國(guó)企業(yè)家報(bào)道,在豆包官方用戶群里,每當(dāng)新功能發(fā)布時(shí),豆包小助手就會(huì)在群里發(fā)布公告,并鼓勵(lì)用戶提供優(yōu)質(zhì)反饋。
這也證明了,字節(jié)做產(chǎn)品的思維,在大模型領(lǐng)域同樣適用。如今,大模型已經(jīng)經(jīng)歷了卷技術(shù)、卷應(yīng)用、卷用戶的階段,想要拿到下半場(chǎng)的船票,字節(jié)也必須帶著豆包一邊“提技術(shù)”,一邊“接地氣”。
03 拓場(chǎng)景、商業(yè)化,是豆包必須探索的
這一年,大模型行業(yè)除了技術(shù)迭代和產(chǎn)品更新速度的比拼,還有一個(gè)更重要的比拼維度,即商業(yè)化賺錢和場(chǎng)景落地的速度。
玩家進(jìn)入的熱情有多火熱,市場(chǎng)對(duì)回報(bào)周期的需求就有多迫切。
對(duì)于字節(jié)這樣的巨頭而言,即便是賺錢的速度再快,也抵不過(guò)大模型的燒錢速度。算力成本、用戶拓新等都需要真金白銀。
還在投入期的豆包,繞不開(kāi)商業(yè)化的命題。
經(jīng)歷了C端燒錢投流后,豆包是國(guó)內(nèi)日活最多的AI產(chǎn)品,但一個(gè)突出的問(wèn)題在于用戶留存。
這讓字節(jié)對(duì)豆包的商業(yè)化也有了新的思考。據(jù)智能涌現(xiàn)報(bào)道,盡管豆包AI對(duì)話類產(chǎn)品月活表現(xiàn)不錯(cuò),但豆包目前活躍度并不高。豆包每周僅活躍2至3天,且每天用戶發(fā)送消息輪次僅為5到6次,單次2分鐘左右,用戶人均使用時(shí)長(zhǎng)僅為10分鐘左右。上述這些數(shù)據(jù)在過(guò)去一年中的增長(zhǎng)幅度并不顯著。
基于此,字節(jié)管理層判斷,像豆包這樣的AI對(duì)話類產(chǎn)品可能只是AI產(chǎn)品的“中間態(tài)”。字節(jié)內(nèi)部判斷,付費(fèi)訂閱模式在中國(guó)不太可能走通。而時(shí)長(zhǎng)和輪次太低,又導(dǎo)致潛在的廣告空間較小,這都構(gòu)成了這類產(chǎn)品的隱形天花板。
長(zhǎng)期來(lái)看,更低門檻、更“多模態(tài)”的產(chǎn)品形式更具落地可能,剪映和即夢(mèng)可能是合適的入口,這也是此次大會(huì)豆包將部分重點(diǎn)放在視頻模型的本質(zhì)原因。
如果說(shuō)豆包在C端是不停地探索應(yīng)用與用戶付費(fèi)意愿的適配度,那在用戶付費(fèi)意愿更強(qiáng)的B端,豆包的重點(diǎn)在于探索豆包大模型與客戶的契合度。
今年5月份,豆包已經(jīng)確定了在B端的業(yè)務(wù)落地思路:火山引擎負(fù)責(zé)基座模型、開(kāi)發(fā)者生態(tài)的構(gòu)建,豆包負(fù)責(zé)應(yīng)用的開(kāi)發(fā)和調(diào)試。
得益于火山引擎“更強(qiáng)模型、更低成本、更易落地”的發(fā)展理念,視覺(jué)理解模型進(jìn)入“以厘計(jì)價(jià)”的同時(shí),火山引擎還升級(jí)了火山方舟、扣子和HiAgent三款平臺(tái)產(chǎn)品,幫助企業(yè)構(gòu)建好自身的AI能力中心,高效開(kāi)發(fā)AI應(yīng)用。
實(shí)際上,按照字節(jié)期待的飛輪效應(yīng),算力調(diào)用測(cè)試推動(dòng)豆包大模型產(chǎn)品降價(jià),大模型降價(jià)再吸引B端客戶合作,客戶的使用數(shù)據(jù)再給豆包帶來(lái)更多的調(diào)用量。
目前,據(jù)火山引擎數(shù)據(jù),豆包大模型已經(jīng)與八成主流汽車品牌合作,并接入到多家手機(jī)、PC等智能終端,覆蓋終端設(shè)備約3億臺(tái),來(lái)自智能終端的豆包大模型調(diào)用量在半年時(shí)間內(nèi)增長(zhǎng)100倍。
此外,在與企業(yè)生產(chǎn)力相關(guān)的場(chǎng)景中,豆包也有新的增長(zhǎng)。最近3個(gè)月,豆包大模型在信息處理場(chǎng)景的調(diào)用量增長(zhǎng)了39倍,客服與銷售場(chǎng)景增長(zhǎng)16倍,硬件終端場(chǎng)景增長(zhǎng)13倍,AI工具場(chǎng)景增長(zhǎng)9倍。
除了針對(duì)B、C端開(kāi)放應(yīng)用外,豆包還下場(chǎng)做起了今年的新風(fēng)口智能硬件產(chǎn)品——Ola Friend。據(jù)介紹,該款耳機(jī)植入了豆包大模型,并與字節(jié)對(duì)話類AI應(yīng)用豆包App結(jié)合:戴上智能耳機(jī)后,用戶可通過(guò)語(yǔ)音對(duì)話隨時(shí)使用豆包,在豆包App上也可以操控這款耳機(jī)。
此外,據(jù)ITBEAR報(bào)道,字節(jié)AI硬件團(tuán)隊(duì)還在積極推動(dòng)豆包大模型與其他手機(jī)廠商的智能助手進(jìn)行合作,以期在更廣泛的場(chǎng)景下發(fā)揮大模型的強(qiáng)大能力。
種種信號(hào)表明,豆包正以各種方式打開(kāi)大模型商業(yè)化的大門。商業(yè)化是擺在所有玩家面前共同的問(wèn)題,學(xué)會(huì)賺錢,也是豆包的必修課。
于豆包而言,用“大力出奇跡”卷完應(yīng)用之后,也要有進(jìn)入下半場(chǎng)高歌猛進(jìn)的資本,那就是一條更為清晰的商業(yè)路徑。