文|藍洞商業(yè) 趙衛(wèi)衛(wèi)
老對手,新戲碼。
過去一周,美國 GPT 熱潮的主角是 OpenAI 和谷歌,國內(nèi)大模型市場的主角則是字節(jié)跳動和騰訊。
一方進攻,另外一方往往就是防守反擊。趕在谷歌 i/o 發(fā)布一系列 AI 新產(chǎn)品之前,OpenAI 發(fā)布了能看能聽的智能助手「GPT-4o」,o 代表「omnimodel」(全能模型)。
與過往的語音助手不同,GPT-4o 可以實現(xiàn)更自然流暢的語音交互,相當于給大模型裝上了眼睛、耳朵和嘴巴,這被視為徹底改變了人機交互的歷史。
大洋彼岸的國內(nèi) AI 市場也在發(fā)生類似的競逐。
在開源與閉源的站隊中,騰訊混元大模型選擇了將 AI 文生圖功能版本開源,并公布了混元大模型在 AI 產(chǎn)業(yè)上一系列落地應(yīng)用。
而搶在 5 月 17 日的騰訊云生成式 AI 應(yīng)用峰會之前,字節(jié)宣布通過火山引擎為豆包大模型對外提供服務(wù),并用遠低于行業(yè)的使用定價掀起了價格戰(zhàn)。
金沙江創(chuàng)投基金主管合伙人朱嘯虎評論說,一下子都從卷scaling law 180 度轉(zhuǎn)彎變成卷價格卷免費了,說好的AGI夢想呢?
從國外到國內(nèi),卷價格還是技術(shù)應(yīng)用,正成為當前中美 AI 科技行業(yè)競逐中的最大看點。
1、字節(jié)掀價格戰(zhàn)
國內(nèi)大模型在應(yīng)用產(chǎn)品層落地上,字節(jié)的豆包已經(jīng)成為用戶量第一的 APP。
根據(jù) QuestMobile 最新公布的數(shù)據(jù),截止到 2024 年 3 月,AIGC APP 行業(yè)用戶已經(jīng)突破 7380 萬,同比增長了 8 倍,其中,抖音旗下的豆包、百度旗下的文心一言以及天工、訊飛星火、Kimi 智能助手月活躍用戶分別為 2328.2 萬、1466.1 萬、966.1 萬、620.4 萬、589.7 萬 。
而根據(jù)火山引擎公布的最新數(shù)據(jù),豆包 APP 的月活已經(jīng)超過了 2600 萬。豆包的成績已經(jīng)肉眼可見,而且豆包開始取代云雀,成為字節(jié)跳動旗下火山引擎對外提供大模型服務(wù)的統(tǒng)一名字。
在 5 月 15 日火山引擎的原動力大會上,豆包大模型正式開啟對外服務(wù),其中最抓人眼球的就是遠遠低于行業(yè)標準的使用價格。
以豆包通用模型 pro-32k 版為例,模型推理輸入價格僅為 0.0008 元/千 Tokens。市面上,同規(guī)格模型的定價一般為 0.12 元/千 Tokens,所以醒目的標題是 32k 版本的豆包模型價格比行業(yè)低了 99.3%,128k 版本的豆包大模型比行業(yè)價格低了95.8%。
豆包大模型的價格無疑震動了行業(yè),但對于真正打算使用豆包大模型的開發(fā)者來說,他們更在意的一個是模型質(zhì)量,一個則是使用范圍?!缸鳛?API 為客戶生成內(nèi)容則需接受良心的拷問,所以 800 元/10 億 token 的價格雖然香,也要看質(zhì)量」,有開發(fā)者表示。
「人人用得起的才是好模型」,這是豆包大模型低價戰(zhàn)略的一個賣點,但有開發(fā)者表示,他看到價格之后計劃開始使用豆包大模型,卻發(fā)現(xiàn)需要企業(yè)認證。也就是說,豆包大模型的價格雖然很香,但只是針對企業(yè)用戶,而不是個人開發(fā)者。
此外,很重要的一點就是「豆包大模型家族」的亮相,這讓字節(jié)在 AI 大模型領(lǐng)域的布局已經(jīng)初步成型。
豆包大模型旗下模型數(shù)量有 9 個,分別是豆包通用模型 Pro、豆包通用模型 liti、豆包 角色扮演模型、豆包 語音合成模型、豆包 聲音復(fù)刻模型、豆包 語音識別模型、豆包 文生圖模型、豆包 Function Call 模型??梢悦黠@看出,豆包大模型在卡位不同的賽道,在應(yīng)用場景的豐富度上已經(jīng)初具規(guī)模。
但歸根結(jié)底,能贏得更多優(yōu)質(zhì)的客戶,才是當下國內(nèi)大模型競逐的方向。
原動力大會上,展示出豆包大模型的合作伙伴有 18 家,包括招商銀行、蒙牛、OPPO等,此外,現(xiàn)場還分別成立了手機、汽車兩個生態(tài)伙伴聯(lián)盟,尤其是當下競逐激烈的汽車領(lǐng)域,合作伙伴包括吉利、長城等 20 余家廠商。
但這也側(cè)面反映出目前 AI 應(yīng)用市場的發(fā)展還處于早期,比如作為案例的奇瑞汽車子品牌捷途汽車,其使用豆包大模型的范圍是打造智能客服,還通過豆包大模型與數(shù)字營銷相結(jié)合,成為廣告投放的導(dǎo)航,加深了企業(yè)對用戶的理解。
價格戰(zhàn)是表面,實際目的是把降價作為賣點,吸引更多用戶和企業(yè)使用,進一步探索面向未來的大模型應(yīng)用。找到大模型用戶使用場景,這成為豆包大模型當下的思路。
2、騰訊終于提速
去年年底,「藍洞商業(yè)」在《大模型「混亂期」:謹慎如騰訊,激進如字節(jié)》一文已經(jīng)點明,騰訊和字節(jié)在大模型之路上背道而馳,騰訊當時在 C 端用戶市場沒有做獨立 APP,只選擇利用微信小程序這一方式,而字節(jié)跳動的大模型在國內(nèi)和國際市場都做了廣泛產(chǎn)品布局。
進入到 2024 年年中,騰訊混元大模型終于開始提速。
其中最引人注意的兩個動作,一個是宣布混元文生圖大模型對外開源,未來確定還會開源文生文大模型;另一個則是將在 5 月 30 日正式發(fā)布元寶 APP,這個大模型產(chǎn)品中集合了搜索、文檔總結(jié)、翻譯官和口語陪練等功能。
元寶 APP 是騰訊混元大模型第一款面向 C 端的獨立產(chǎn)品。在豆包和文心一言等 APP 占領(lǐng)的國內(nèi)市場中,騰訊還能拿下多少 AI 用戶規(guī)模?顯然是一件值得期待的事情,畢竟豆包 APP 2600 萬的月活并不是一個很高的天花板。
而混元大模型開源的技術(shù)路線,也標志著騰訊在大模型之路上開始站隊。
值得注意的是,騰訊混元大模型選擇開源的文生圖大模型,是與 OpenAI 發(fā)布的文生視頻模型 Sora 相同的 DiT(Diffusion Models with transformer)架構(gòu),是業(yè)內(nèi)首個中文原生的 DiT 架構(gòu),不僅能夠支持文生圖,也能作為視頻等多模態(tài)視覺生成的基礎(chǔ)。此外,混元文生圖大模型支持中英文雙語輸入及理解,參數(shù)量 15 億。
騰訊在最新一季的財報會提到,騰訊在微信和 QQ 等很多服務(wù)中都部署了混元大模型。
廣告可能是大模型最先見效的業(yè)務(wù),正如 Meta 基于大型語言模型 Advantage+ 改進了他們的廣告工具。騰訊混元文生圖能力,已經(jīng)廣泛被用于素材創(chuàng)作、商品合成、游戲出圖等多項業(yè)務(wù)及場景中。
今年年初,基于騰訊混元大模型,騰訊發(fā)布了一站式 AI 廣告創(chuàng)意平臺騰訊廣告妙思,可為廣告主提供文生圖、圖生圖、商品背景合成等多場景創(chuàng)意工具,有效提高了廣告生產(chǎn)及投放效率。
但目前看來,混元大模型對騰訊核心的游戲業(yè)務(wù)幫助度并不高。財報會上提到游戲上尚未用上生成式 AI,混元可以利用 NPC 創(chuàng)造某種互動體驗,但還不能取代現(xiàn)有的游戲內(nèi)容創(chuàng)作。目前游戲業(yè)務(wù)中是使用混元最大的場景是客服。
OpenAI 選擇閉源大模型,谷歌則是開源路線。國內(nèi)市場,除了百度是閉源路線,阿里的通義千問、百川智能、昆侖萬維等公司都屬于開源路線,發(fā)布過不同參數(shù)的開源大模型。如今,騰訊也站隊開源,只能說明開源大模型大概率是未來大勢所趨。
當下,開源和閉源的路線之爭還難見分曉,「在開源和閉源的問題上,我們認為兩者都有其獨特的價值和作用。我們已經(jīng)有計劃在未來開源更多的模型,同時我們也在積極地開發(fā)通用人工智能,并探索如何廣泛地分配其帶來的利益。」OpenAI 創(chuàng)始人奧特曼最近表態(tài)說。
智源研究院副院長林詠華也曾對《財新》指出,模型需要的是機構(gòu)持續(xù)投入迭代創(chuàng)新,一旦落后很容易被替代,而軟件工具鏈則是技術(shù)積累、不斷做加法,不會突然間被取代?!改P鸵恢睍呛罄送魄袄?,最開始熱鬧的未必能笑到最后,反而是工具鏈通過生態(tài)的不斷積累能夠建起護城河。」
3、OpenAI 進攻,谷歌反擊
GPT-4o 讓人眼前一亮的,就是其生動的交互體驗。
在其展示的視頻中,GPT-4o 作為一個大模型語音助手,可以隨時被用戶的指令打斷,在不同的情緒和語調(diào)中切換自然、實時響應(yīng),這讓 GPT-4o 大大超越了以往的人工智能語音助手。
而之所以命名為 o,就是因為其可以處理文本、音頻和圖像的組合。GPT-4o 可以通過手機攝像頭看到現(xiàn)實世界的情況,例如可以給一位視障男子叫一輛出租車,告訴他車輛在靠近以及何時揮手。GPT-4o 還可以是一個數(shù)學(xué)老師,在識別數(shù)學(xué)問題之后,通過語音指令一步步循循善誘的告訴孩子如何解答這道題。
GPT-4o 在翻譯、會議場景、語言培訓(xùn)方面的用途顯然極具想象力,「GPT4 的實際可用性太強了,現(xiàn)在開發(fā)者面前有個以小博大的機會,就是立刻做一個 GPT-4o 的套殼,去吊打市面上所有的 AI 陪伴類產(chǎn)品,這是一個典型的新技術(shù)帶來 10 倍好體驗 x OpenAI 不會做的方向?!褂袊鴥?nèi)的大模型開發(fā)者這樣認為。
更重要的是,大模型裝上了眼睛、耳朵和嘴巴,勢必會帶來 ChatGPT 在用戶層面的進一步滲透。
行業(yè)分析人士認為,從 OpenAI 的產(chǎn)品路線看,「當下發(fā)布的 GPT-4o 大概率只是 GPT-4.5 的一部分,估計 GPT-4.5 拆成兩個版本發(fā)完才會到 GPT-5」,而 GPT-5 將在當前的技術(shù)基礎(chǔ)上實現(xiàn)巨大的飛躍。
要想在未來幾周內(nèi)體驗 GPT-4o,仍需要成為付費 ChatGPT-Plus(該公司每月 20 美元的功能)的用戶,而對于企業(yè)用戶來說,GPT-4o 的速度將是其當前頂級產(chǎn)品 GPT-4 Turbo 的兩倍,成本僅為其一半。
這也擺明了一個事實,那就是好東西都不會免費,GPT-4o 的推出意味著科技巨頭們越來越急迫的擴大付費用戶規(guī)模,以平衡在研發(fā)上投入的巨大資金和費用。
華爾街最新公布的數(shù)據(jù)是,預(yù)計今年谷歌和 OpenAI 在人工智能服務(wù)的技術(shù)基礎(chǔ)建設(shè)上,二者合計的支出高達 970 億美元,這個數(shù)字比去年增長了 42%。這種高投入的模式無疑讓大模型成為大廠之間的競逐游戲,也讓玩家們面臨如何平衡投資回報之間的挑戰(zhàn)。
人工智能競賽中的大模型進化,更像是一個燒錢機器的比賽。
谷歌與 OpenAI 背后的微軟已經(jīng)在 AI 行業(yè)形成對壘之勢,表面上看是 OpenAI 一直處于攻勢,而谷歌處于防守之勢,但美國的投資公司更愿意相信,在人工智能的這場競賽中,獲勝者不可能只有一個,谷歌依然是人工智能競賽中的領(lǐng)先者。
在 Google I/O 開發(fā)者大會上,針對 OpenAI 的發(fā)布但遲遲沒能開放的視頻模型 Sora,谷歌發(fā)布了視頻生成模型 Veo;針對語音助手模型的 GPT-4o,谷歌發(fā)布了同樣針對人工智能語音智能的 Project Astra;在文生圖模型上發(fā)布了最新的 Imagen 3;更重要的是,升級版的最強大AI模型 Gemini 將重塑傳統(tǒng)搜索模式,通過「人工智能概述」功能,自動推理回答用戶的需求。
大模型的進化之路依舊漫長,當下沒有標準答案。
今年以來,谷歌的股價上漲了 22%,這是微軟同期的兩倍。所以,OpenAI 與谷歌之間的對壘,將成為大模型第一梯隊未來很長一段時間的重要看點。
國內(nèi)不論字節(jié)的豆包還是騰訊的混元,都在深挖內(nèi)部需求的同時,極力招攬外部客戶,進而構(gòu)建自己的應(yīng)用層能力。各家的每一個動作,都可能被看作對手間的攻防之戰(zhàn)。
審校|陳秋霖