11月29日,智譜AI在其技術(shù)開放日上上演了一幕令人矚目的科技大戲:歷史上首次!AI發(fā)出了第一個(gè)紅包!
公司CEO張鵬僅僅通過三句語音指令,就讓旗下的智能體AutoGLM跨越微信、支付寶等多個(gè)應(yīng)用,給現(xiàn)場(chǎng)和線上的觀眾發(fā)了兩個(gè)大紅包。
這一幕背后,折射出的是 AI Agent技術(shù)的革命性突破。
當(dāng)前,傳統(tǒng)的AI助手停留在被動(dòng)響應(yīng)和單一場(chǎng)景的交互,而智譜AI的AutoGLM已經(jīng)能夠主動(dòng)理解復(fù)雜指令,跨應(yīng)用協(xié)同,并精準(zhǔn)執(zhí)行用戶意圖。
除了發(fā)紅包這樣的操作外,即使面對(duì)多個(gè)復(fù)雜操作的超長(zhǎng)任務(wù),例如訂外賣時(shí)橫跨多個(gè)APP比價(jià),AutoGLM也能行云流水般自主執(zhí)行。
然而這樣的“驚喜”,只是今年智譜在AI方向上結(jié)出的眾多”碩果“之一。
今年7月,智譜AI 代碼生成大模型 CodeGeeX 第四代正式發(fā)布,支持代碼補(bǔ)全、代碼注釋、代碼修復(fù)、代碼翻譯等基礎(chǔ)功能;7月末,智譜AI的視頻生成模型「智譜清影」正式發(fā)布,可生成時(shí)長(zhǎng) 6 秒,清晰度達(dá)到 1440×960的視頻。
到了10月,智譜推出并開源端到端語音模型 GLM-4-Voice,與GPT-4o的語音功能一樣, GLM-4-Voice可以進(jìn)行實(shí)時(shí)語音對(duì)話,同時(shí)在情緒表達(dá)、多語言等方面實(shí)現(xiàn)突破,且可隨時(shí)打斷。
由此可見,今年的智譜,在代碼、多模態(tài)、Agent等多個(gè)方向上,都進(jìn)行了“突擊”。這種全方位的技術(shù)布局,展示了智譜AI在追趕全球AI巨頭的決心。
然而,在這看似全面的進(jìn)展背后,也不免讓人產(chǎn)生一種冷靜的思考:在體量、資本均不及OpenAI等巨頭的情況下,如此廣泛的技術(shù)覆蓋,是否會(huì)影響智譜在各個(gè)領(lǐng)域的深耕程度?
多線進(jìn)軍的隱憂
從總體上離開,在今年的AI賽道上,身為“AI六小虎”之一的智譜,雖然布局甚廣,但其在每一條戰(zhàn)線上的表現(xiàn),都相對(duì)比較“平均”,其產(chǎn)品方向更趨向于跟隨,而鮮少有獨(dú)創(chuàng)性的突破。
以智譜最近發(fā)布的旗艦大模型GLM-4-Plus為例,該模型定位是一種類似OpenAI 的o1那樣的深度推理模型。雖然其在深度推理、長(zhǎng)文本處理和指令遵循等方面表現(xiàn)突出,且能夠處理更復(fù)雜的數(shù)學(xué)和邏輯問題,然而,這種“強(qiáng)大”并不意味著絕對(duì)的優(yōu)勢(shì),反而暴露出一些潛在的矛盾。
這樣的矛盾就在于,GLM-4-Plus這種“類o1”的深度推理模型,實(shí)質(zhì)上與智譜本身的生態(tài)定位之間,已經(jīng)發(fā)生了錯(cuò)位。
因?yàn)橹亲V的定位與OpenAI這類巨頭有所不同,雖然智譜AI確實(shí)更偏向于B端市場(chǎng),但B端市場(chǎng)并非單一結(jié)構(gòu),而是由不同層級(jí)和類型的需求構(gòu)成。
對(duì)高性能深度推理的需求,主要來自科研、高技術(shù)行業(yè)或特定領(lǐng)域(如編程或科學(xué)計(jì)算),這些領(lǐng)域的規(guī)模相對(duì)有限。
智譜AI的B端客戶,則聚焦于更廣泛的行業(yè)應(yīng)用的B端客戶,包括金融、教育、能源,通信等行業(yè),這樣的企業(yè),更需要的是性價(jià)比高、易集成且靈活的模型,而非動(dòng)輒需要高算力支持的深度推理大模型。
如果說,進(jìn)入高端推理模型的競(jìng)爭(zhēng),只是智譜AI在“scaling Law 失效”威脅下,一種展示核心技術(shù)實(shí)力的必要手段,那么在多模態(tài)方向上的布局,則反映了其更深層次的“定位迷失”。
力所不及的多模態(tài)
智譜AI在2024年發(fā)布的多模態(tài)語音助手功能,特別是其基于GLM系列的“智譜清言”系統(tǒng),通過融合實(shí)時(shí)語音、視頻通話和多模態(tài)理解技術(shù),試圖在C端應(yīng)用領(lǐng)域拓展新的場(chǎng)景。
然而,與科大訊飛的“星火”大模型和字節(jié)跳動(dòng)的“豆包”語音AI相比,智譜AI的表現(xiàn)呈現(xiàn)出一些耐人尋味的矛盾。
科大訊飛已深耕語音領(lǐng)域多年,其語音識(shí)別、翻譯和場(chǎng)景化應(yīng)用(如會(huì)議記錄、智能客服)不僅成熟,而且在實(shí)際場(chǎng)景中有良好的落地率。字節(jié)的“豆包”則依托強(qiáng)大的內(nèi)容生態(tài),具有將語音AI應(yīng)用到社交、娛樂和短視頻生成等消費(fèi)級(jí)場(chǎng)景中的潛力。
在生態(tài)布局均不如人的情況下,智譜AI的多模態(tài)語音助手,卻仍未能體現(xiàn)亮眼的差異,其視頻通話功能雖然支持低延遲,更自然的交互,但智力水平的表現(xiàn),卻與文本狀態(tài)下有著很大差距。與字節(jié)的“豆包”、訊飛的”星火都犯了同樣的通病。
除此之外,智譜AI在2024年的文生視頻領(lǐng)域也展現(xiàn)了雄心,通過其最新發(fā)布的CogVideoX v1.5模型和開放平臺(tái)“清影”,提供了從文本生成視頻(T2V)到多模態(tài)整合的一系列功能。其技術(shù)亮點(diǎn)包括支持5到10秒的高清視頻生成、4K分辨率、多通道輸出(一次性生成多個(gè)視頻)等。
然而,平心而論,與字節(jié)、快手等大廠的文生視頻大模型相比,“清影”的表現(xiàn)還是太嫩了點(diǎn)。
雖然其主打免費(fèi)、高清,甚至還在后期加入了AI音效的選項(xiàng),但從效果上看,其生成的視頻不僅古怪、扭曲,并且還有一些很明顯的運(yùn)動(dòng)錯(cuò)誤。
例如,在輸入提示詞:“一片廣闊的海灘上,一個(gè)人形機(jī)器人和一只貓?jiān)谝黄鹕⒉健焙?,清影生成的視頻里,出現(xiàn)了兩個(gè)機(jī)器人,而非一個(gè),同時(shí)它們還像螃蟹一樣,用一種橫著走路的奇怪方式在移動(dòng)。
更詭異的則是畫面中的貓,走著走著,頭就變成了尾巴,仿佛器官發(fā)生了換位。
價(jià)格戰(zhàn)下的無奈
上述提到的種種“博而不精”的現(xiàn)象,反映出的更深層次的問題在于,智譜AI似乎在B端與C端兩個(gè)方向上出現(xiàn)了搖擺的情況。
以視頻生成為例,字節(jié)跳動(dòng)通過其強(qiáng)大的內(nèi)容生態(tài),將MagicVideo-V2緊密結(jié)合到TikTok和抖音等平臺(tái),實(shí)現(xiàn)了技術(shù)與商業(yè)的雙向賦能。同樣地,快手也可將視頻生成嵌入自身的短視頻平臺(tái)。
短視頻賽道,是天然離C端最近,也最具親和力的一條賽道。
而現(xiàn)在的智譜AI,從生態(tài)布局來看,其整體戰(zhàn)略更偏向于B端市場(chǎng),服務(wù)的客戶包括金融、教育、能源和制造業(yè),這些合作大多集中在需要高技術(shù)支持和私有化部署的場(chǎng)景中,如工業(yè)流程優(yōu)化、客戶服務(wù)智能化等。
但今年智譜AI的多線布局的策略,似乎表明了其既希望拓展ToB市場(chǎng),又想在C端打造多模態(tài)互動(dòng)的超級(jí)應(yīng)用,形成一種“兩頭抓”的戰(zhàn)略。
在總體資源不及OpenAI,也不及BAT等巨頭的情況下,這一策略的結(jié)果最終導(dǎo)致了其資源分散,難以在一個(gè)方向上形成突出的競(jìng)爭(zhēng)優(yōu)勢(shì)。
但實(shí)際上,這種多線進(jìn)軍的策略,透露出的是一種在商業(yè)化困境下的“無奈突圍”。
《中國大模型中標(biāo)項(xiàng)目監(jiān)測(cè)報(bào)告》顯示,2024年1-9月份,智譜華章中標(biāo)的大模型項(xiàng)目達(dá)到22個(gè),中標(biāo)項(xiàng)目披露的中標(biāo)金額為2472.3萬元。22個(gè)中標(biāo)項(xiàng)目主要分布在通信、金融、能源、教科等行業(yè),以央國企客戶為主。
從大模型中標(biāo)項(xiàng)目數(shù)量來看,智譜華章可以跟科大訊飛、百度一樣,位列第一梯隊(duì)。但是獲得這些項(xiàng)目的過程中,智譜華章付出的“代價(jià)”也不小。
這樣的“代價(jià)”,就是卷到極致的價(jià)格戰(zhàn)。
今年以來,為了應(yīng)對(duì)同行的價(jià)格壓制,智譜AI將模型調(diào)用價(jià)格降低到行業(yè)最低水平,如GLM-4-Flash的價(jià)格僅0.06元/百萬tokens;對(duì)比之下,OpenAI的GPT-4 Turbo版本為 10美元/百萬tokens,差距超過千倍。在一年的時(shí)間里,智譜AI從最初的 0.5元/千tokens 降至當(dāng)前價(jià)格,降幅接近1萬倍。
這種激進(jìn)的降價(jià)策略,導(dǎo)致利潤空間進(jìn)一步被壓縮。于是,作為大模型廠商的智譜AI,要活下來,只能依靠融資。
過去半年,資本對(duì)于國內(nèi)大模型廠商的態(tài)度逐漸冷靜下來。如果大模型廠商想要拿到新一輪融資,最重要的就是要證明自己商業(yè)化的能力。
而這樣的“能力”,反映在具體的業(yè)務(wù)上,就是一個(gè)又一個(gè)的“技術(shù)奇觀”的出現(xiàn)。
過去幾個(gè)月,智譜AI接連發(fā)布了AI生成視頻模型清影(Ying)、情感語音模型GLM-4-Voice ,以及AI助理工具AutoGLM 等,這無一不是想通過追逐技術(shù)熱點(diǎn),來吸引市場(chǎng)關(guān)注的表現(xiàn)。
然而,縱觀整個(gè)AI行業(yè)來看,即使在大模型商業(yè)化困難的瓶頸期,除了“多線出擊”的策略外,相關(guān)的AI企業(yè)并不是沒有其他選擇的余地。
在大模型尚未在C端取得明顯盈利化的階段,是否有AI企業(yè)保持住了自身的定力,專注于特定的方向,并取得了突破行業(yè)上限的進(jìn)展?
答案當(dāng)然是有的,OpenAI的勁敵——Anthropic就是個(gè)很好的例子。
與其他多線布局的大廠相比,Anthropic明確聚焦于機(jī)制可解釋性和AI對(duì)齊問題。它的研究目標(biāo)高度集中,例如通過“憲法AI”的理念改進(jìn)AI的安全性和倫理性,使其模型的行為更加透明和可控。這種專注不僅增強(qiáng)了其科研資源的深度與質(zhì)量,也吸引了對(duì)該領(lǐng)域有長(zhǎng)期投資意愿的資本,包括Sam Bankman-Fried的FTX基金會(huì)、Google Cloud等。
Anthropic之所以能做到這點(diǎn),而智譜AI卻被迫“多線進(jìn)軍”,背后折射出了一個(gè)深層次的現(xiàn)實(shí):在中國的AI創(chuàng)新生態(tài)與投資環(huán)境中,“快”往往比“深”更受青睞。
這并非簡(jiǎn)單的企業(yè)選擇問題,而是整個(gè)創(chuàng)新生態(tài)的產(chǎn)物。
智譜AI等國產(chǎn)大模型廠商普遍“追熱點(diǎn)”困境,本質(zhì)上是一個(gè)“囚徒困境”:每家企業(yè)都知道深耕細(xì)作的重要性,但在激烈的市場(chǎng)競(jìng)爭(zhēng)和資本壓力下,不得不選擇更激進(jìn)的策略。這種現(xiàn)象的背后,是中國技術(shù)創(chuàng)新生態(tài)尚未形成對(duì)“慢變量”的充分理解和尊重。