文 | 定焦One 王璐
編輯 | 魏佳
DeepSeek徹底讓全球都坐不住了。
昨天,馬斯克攜“地球上最聰明的AI”——Gork 3在直播中亮相,自稱(chēng)其“推理能力超越目前所有已知模型”,在推理-測(cè)試時(shí)間得分上,也好于DeepSeek R1、OpenAI o1。不久前,國(guó)民級(jí)應(yīng)用微信宣布接入DeepSeek R1,正在灰度測(cè)試中,這一王炸組合被外界認(rèn)為AI搜索領(lǐng)域要變天。
如今,微軟、英偉達(dá)、華為云、騰訊云等全球多家科技大廠都已接入DeepSeek。網(wǎng)友也開(kāi)發(fā)出了算命、預(yù)測(cè)彩票等新奇玩法,其熱度直接轉(zhuǎn)化成了真金白銀,助推DeepSeek估值一路上漲,最高已經(jīng)達(dá)到了千億美金。
DeepSeek能出圈,除了免費(fèi)和好用之外,還因?yàn)槠鋬H以557.6萬(wàn)美元的GPU成本,就訓(xùn)練出了與OpenAI o1能力不相上下的DeepSeek R1模型。畢竟,在過(guò)去幾年的“百模大戰(zhàn)”中,國(guó)內(nèi)外AI大模型公司都砸了幾十億甚至上百億美元。Gork 3成為“全球最聰明AI”的代價(jià)也是高昂的,馬斯克稱(chēng)Gork 3訓(xùn)練累計(jì)消耗20萬(wàn)塊英偉達(dá)GPU(單塊成本大約在3萬(wàn)美元),而業(yè)內(nèi)人士估計(jì)DeepSeek僅在1萬(wàn)多張。
但也有人在成本上卷DeepSeek。近日李飛飛團(tuán)隊(duì)稱(chēng),僅花費(fèi)不到50美元的云計(jì)算費(fèi)用,就訓(xùn)練出了一款推理模型S1,其在數(shù)學(xué)和編碼能力測(cè)試中的表現(xiàn)媲美OpenAI的o1和DeepSeek的R1。但需要注意的是,S1是中型模型,與DeepSeek R1的上千億參數(shù)級(jí)別存在差距。
即便如此,從50美元到上百億美元的巨大訓(xùn)練成本差異,還是讓大家好奇,一方面想知道DeepSeek的能力有多強(qiáng),為什么各家都在試圖趕上甚至超過(guò)它,另一方面,訓(xùn)練一個(gè)大模型究竟需要多少錢(qián)?它涉及哪些環(huán)節(jié)?未來(lái),是否還有可能進(jìn)一步降低訓(xùn)練成本?
被“以偏概全”的DeepSeek
在從業(yè)者看來(lái),在解答這些問(wèn)題前,得先捋清幾個(gè)概念。
首先是對(duì)DeepSeek的理解“以偏概全”。大家驚嘆的是它眾多大模型之中的一個(gè)——推理大模型DeepSeek-R1,但它還有其他的大模型,不同大模型產(chǎn)品之間的功能不一樣。而557.6萬(wàn)美元,是其通用大模型DeepSeek-V3訓(xùn)練過(guò)程中的GPU花費(fèi),可以理解為凈算力成本。
簡(jiǎn)單對(duì)比下:
- 通用大模型:
接收明確指令,拆解步驟,用戶(hù)要把任務(wù)描述清楚,包括回答順序,比如用戶(hù)需要提示是先做總結(jié)再給出標(biāo)題,還是相反。
回復(fù)速度較快,基于概率預(yù)測(cè)(快速反應(yīng)),通過(guò)大量數(shù)據(jù)預(yù)測(cè)答案。
- 推理大模型:
接收簡(jiǎn)單明了、聚焦目標(biāo)的任務(wù),用戶(hù)要什么直接說(shuō),它可以自己做規(guī)劃。
回復(fù)速度較慢,基于鏈?zhǔn)剿季S(慢速思考),推理問(wèn)題步驟得到答案。
兩者主要的技術(shù)差別在于訓(xùn)練數(shù)據(jù),通用大模型是問(wèn)題+答案,推理大模型是問(wèn)題+思考過(guò)程+答案。
第二,由于Deepseek的推理大模型DeepSeek-R1關(guān)注度更高,很多人錯(cuò)誤地認(rèn)為推理大模型一定比通用大模型高級(jí)。
需要肯定的是,推理大模型屬于前沿模型類(lèi)型,是大模型預(yù)訓(xùn)練范式撞墻后,OpenAI推出的在推理階段增加算力的新范式。相比通用大模型,推理大模型更燒錢(qián),訓(xùn)練時(shí)間也更長(zhǎng)。
但并不意味著,推理大模型一定比通用大模型好用,甚至對(duì)于某類(lèi)問(wèn)題,推理大模型反而顯得雞肋。
大模型領(lǐng)域知名專(zhuān)家劉聰對(duì)「定焦One」解釋?zhuān)热鐔?wèn)某個(gè)國(guó)家的首都/某個(gè)地方的省會(huì)城市,推理大模型就不如通用大模型好用。
DeepSeek-R1面對(duì)簡(jiǎn)單問(wèn)題時(shí)的過(guò)度思考
他表示,面對(duì)這類(lèi)比較簡(jiǎn)單的問(wèn)題,推理大模型不僅回答效率低于通用大模型,消耗的算力成本也比較昂貴,甚至?xí)霈F(xiàn)過(guò)度思考等情況,最后可能給出錯(cuò)誤答案。
他建議,完成數(shù)學(xué)難題、挑戰(zhàn)性編碼等復(fù)雜任務(wù)時(shí)使用推理模型,總結(jié)、翻譯、基礎(chǔ)問(wèn)答等簡(jiǎn)單任務(wù),通用模型使用效果更佳。
第三是DeepSeek的真正實(shí)力到底如何。
綜合權(quán)威榜單和從業(yè)者的說(shuō)法,「定焦One」分別在推理大模型和通用大模型領(lǐng)域,給DeepSeek排了個(gè)位。
推理大模型第一梯隊(duì)主要有四家:國(guó)外OpenAI的o系列模型(如o3-mini)、Google的Gemini 2.0;國(guó)內(nèi)的DeepSeek-R1、阿里的QwQ。
不止一位從業(yè)者認(rèn)為,雖然外界都在討論DeepSeek-R1作為國(guó)內(nèi)頂尖的模型,能力趕超OpenAI,但從技術(shù)角度看,相比OpenAI最新的o3,還有一定的差距。
它更重要的意義是,大大縮小了國(guó)內(nèi)外頂尖水平之間的差距?!叭绻f(shuō)之前的差距是2-3代,DeepSeek-R1出現(xiàn)后已經(jīng)縮小到了0.5代。”AI行業(yè)資深從業(yè)者江樹(shù)表示。
他結(jié)合自身使用經(jīng)驗(yàn),介紹了四家的優(yōu)缺點(diǎn):
在通用大模型領(lǐng)域,根據(jù)LM Arena(用于評(píng)估和比較大型語(yǔ)言模型(LLM)性能的開(kāi)源平臺(tái))榜單,排在第一梯隊(duì)的有五家:國(guó)外Google的Gemini(閉源)、OpenAI的ChatGPT、Anthropic的Claude;國(guó)內(nèi)的DeepSeek、阿里的Qwen。
江樹(shù)也列舉出了使用它們的體驗(yàn)。
不難發(fā)現(xiàn),盡管DeepSeek-R1震驚了全球科技圈,其價(jià)值毋庸置疑,但每家大模型產(chǎn)品都有自身的優(yōu)劣勢(shì),DeepSeek也不是所有大模型都完美無(wú)缺。比如劉聰就發(fā)現(xiàn),DeepSeek最新發(fā)布的專(zhuān)注于圖像理解和生成任務(wù)的多模態(tài)大模型Janus-Pro,使用效果一般。
訓(xùn)練大模型,要花多少錢(qián)?
回到訓(xùn)練大模型的成本問(wèn)題,一個(gè)大模型究竟是如何誕生的?
劉聰表示,大模型誕生主要分為預(yù)訓(xùn)練-后訓(xùn)練兩個(gè)階段,如果把大模型比作小孩,預(yù)訓(xùn)練和后訓(xùn)練要做的是,讓小孩從出生時(shí)的只會(huì)哭,到懂得大人講的內(nèi)容,再到主動(dòng)和大人講話(huà)。
預(yù)訓(xùn)練主要指訓(xùn)練語(yǔ)料。比如將大量的文本語(yǔ)料投給模型,讓小孩完成知識(shí)攝取,但此刻他只是學(xué)了知識(shí)還不會(huì)用。
后訓(xùn)練則要告訴小孩,如何去用學(xué)了的知識(shí),包含兩種方法,模型微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RLHF)。
劉聰表示,無(wú)論是通用大模型還是推理大模型、國(guó)內(nèi)還是國(guó)外,大家遵循的都是這一流程。江樹(shù)也告訴「定焦One」,各家都用的是Transformer模型,因此在最底層的模型構(gòu)成和訓(xùn)練步驟上,無(wú)本質(zhì)區(qū)別。
多位從業(yè)者表示,各家大模型的訓(xùn)練成本差別很大,主要集中在硬件、數(shù)據(jù)、人工三大部分,每一部分也可能采取不同的方式,對(duì)應(yīng)的成本也不同。
劉聰分別舉例,比如硬件是買(mǎi)是租,兩者間的價(jià)格相差很大,如果是買(mǎi),前期的一次性投入很大,但后期會(huì)大幅降低,基本只用交電費(fèi),如果是租,可能前期投入不大,但這部分成本始終無(wú)法省去。所使用的訓(xùn)練數(shù)據(jù)上,是直接購(gòu)買(mǎi)現(xiàn)成數(shù)據(jù),還是自己人工爬,也差別很大。每次的訓(xùn)練成本也不太一樣,像第一次要寫(xiě)爬蟲(chóng)、做數(shù)據(jù)篩選,但下一個(gè)版本由于可使用上個(gè)版本的重復(fù)操作,成本會(huì)有所降低。以及在最終展現(xiàn)模型前,中間迭代了多少版本,也決定著成本高低,但大模型公司對(duì)此諱莫如深。
總之,每個(gè)環(huán)節(jié)都涉及很多高額的隱形成本。
外界曾按照GPU估算,在頂尖模型中,GPT-4的訓(xùn)練成本大約為7800萬(wàn)美元,Llama3.1超6000萬(wàn)美元,Claude3.5約為1億美元。但由于這些頂尖大模型都是閉源,以及各家是否存在算力浪費(fèi)現(xiàn)象,外界很難知曉。直到同梯隊(duì)的DeepSeek以557.6萬(wàn)美元出現(xiàn)。
需要注意的是,557.6萬(wàn)美元是DeepSeek技術(shù)報(bào)告中提到的基座模型DeepSeek-V3的訓(xùn)練成本?!瓣P(guān)于V3版本的訓(xùn)練成本只能代表最后一次成功訓(xùn)練的成本,前期的研究、架構(gòu)及算法的試錯(cuò)等成本都沒(méi)有包含在內(nèi);而R1的具體訓(xùn)練成本,論文中沒(méi)有提到?!眲⒙敱硎尽R簿褪钦f(shuō),557.6萬(wàn)美元僅為模型總成本的一小部分。
半導(dǎo)體市場(chǎng)分析和預(yù)測(cè)公司SemiAnalysis指出,考慮到服務(wù)器資本支出、運(yùn)營(yíng)成本等因素,DeepSeek的總成本在4年內(nèi)可能達(dá)到25.73億美元。
從業(yè)者認(rèn)為,相較其他大模型公司百億美元的投入,即便按25.73億美元計(jì)算,DeepSeek的成本也是低的。
而且,DeepSeek-V3的訓(xùn)練過(guò)程僅需2048張英偉達(dá)GPU、所用GPU小時(shí)僅為278.8萬(wàn),相比之下,OpenAI耗費(fèi)了上萬(wàn)張GPU,Meta訓(xùn)練模型Llama-3.1-405B所用的GPU小時(shí)為3084萬(wàn)。
DeepSeek不僅在模型訓(xùn)練階段效率更高,在調(diào)用推理階段也更高效、成本更低。
從DeepSeek給出的各大模型API定價(jià)(開(kāi)發(fā)者可以通過(guò)API調(diào)用大模型,實(shí)現(xiàn)文本生成、對(duì)話(huà)交互、代碼生成等功能),能看出成本其低于“OpenAI們”。通常認(rèn)為,高開(kāi)發(fā)成本的API通常需要通過(guò)較高的定價(jià)來(lái)回收成本。
DeepSeek-R1的API定價(jià)為:每百萬(wàn)輸入tokens1元(緩存命中),每百萬(wàn)輸出tokens16元,反觀OpenAI的o3-mini,輸入(緩存命中)、輸出每百萬(wàn)tokens的定價(jià),分別為0.55美元(4元人民幣)、4.4美元(31元人民幣)。
緩存命中,即從緩存中讀取數(shù)據(jù)而非重新計(jì)算或調(diào)用模型生成結(jié)果,可以減少數(shù)據(jù)處理的時(shí)間、降低成本。行業(yè)通過(guò)區(qū)分緩存命中和緩存未命中,從而提高API定價(jià)的競(jìng)爭(zhēng)力,低價(jià)也讓中小企業(yè)也更容易接入。
近期結(jié)束了優(yōu)惠期的DeepSeek-V3,雖然從原來(lái)的每百萬(wàn)輸入tokens0.1元(緩存命中)、每百萬(wàn)輸出tokens2元,分別上調(diào)到了0.5元、8元,價(jià)格仍然低于其他主流模型。
雖然大模型總訓(xùn)練成本很難預(yù)估,但從業(yè)者一致認(rèn)為,DeepSeek可能代表的是目前一流大模型的最低成本,未來(lái)各家應(yīng)該會(huì)參照DeepSeek往下降。
DeepSeek的降本啟示
DeepSeek的錢(qián)省在哪了?綜合從業(yè)者的說(shuō)法,從模型結(jié)構(gòu)-預(yù)訓(xùn)練-后訓(xùn)練,每個(gè)方面都做了優(yōu)化。
比如為了保證回答的專(zhuān)業(yè)性,很多大模型公司采用的是MoE模型(混合專(zhuān)家模型),即面對(duì)一個(gè)復(fù)雜難題,大模型會(huì)將其拆解為多個(gè)子任務(wù),然后將不同子任務(wù)交給不同專(zhuān)家解答。雖然很多家大模型公司都曾提到過(guò)這一模型,但DeepSeek達(dá)到了終極專(zhuān)家專(zhuān)業(yè)化水平。
秘訣是采用了細(xì)粒度專(zhuān)家分割(對(duì)專(zhuān)家在同一類(lèi)別中再進(jìn)行子任務(wù)細(xì)分)和共享專(zhuān)家隔離(隔離部分專(zhuān)家減輕知識(shí)冗余),這樣做的好處是,能大幅提高M(jìn)oE參數(shù)效率和性能,做到更快更準(zhǔn)確給予答案。
有從業(yè)者估算,DeepSeekMoE相當(dāng)于僅用大約40%的計(jì)算量,便達(dá)到了與LLaMA2-7B差不多的效果。
數(shù)據(jù)處理也是大模型訓(xùn)練的一道坎,各家都琢磨著如何提高計(jì)算效率,同時(shí)還能降低內(nèi)存和帶寬等硬件需求。DeepSeek找到的方法是,在處理數(shù)據(jù)時(shí)用FP8低精度訓(xùn)練(用于加速深度學(xué)習(xí)訓(xùn)練),“此舉在已知開(kāi)源模型中比較領(lǐng)先,畢竟大多數(shù)大模型使用的是FP16或BF16混合精度訓(xùn)練,F(xiàn)P8的訓(xùn)練速度比它們快很多?!眲⒙敱硎尽?/p>
后訓(xùn)練中的強(qiáng)化學(xué)習(xí)上,策略?xún)?yōu)化是一大難點(diǎn),可以理解為讓大模型更好地進(jìn)行過(guò)決策,比如AlphaGo通過(guò)策略?xún)?yōu)化學(xué)會(huì)了如何在圍棋中選擇最優(yōu)的落子策略。
DeepSeek選擇GRPO(分組相對(duì)策略?xún)?yōu)化)而非PPO(近端策略?xún)?yōu)化)算法,兩者的主要區(qū)別在于在進(jìn)行算法優(yōu)化時(shí),是否借助價(jià)值模型,前者通過(guò)組內(nèi)相對(duì)獎(jiǎng)勵(lì)來(lái)估計(jì)優(yōu)勢(shì)函數(shù),后者用的是單獨(dú)的價(jià)值模型。少一個(gè)模型,算力要求自然更小,也會(huì)節(jié)省成本。
以及推理層面上,用多頭潛在注意力機(jī)制(MLA)而非傳統(tǒng)的多頭注意力(MHA),顯著降低了顯存占用和計(jì)算復(fù)雜度,最直接的好處是,API接口費(fèi)用下降。
不過(guò),這次DeepSeek給劉聰?shù)淖畲髥l(fā)是,可以從不同角度提升大模型推理能力,純模型微調(diào)(SFT)和純強(qiáng)化學(xué)習(xí)(RLHF)都可以做出不錯(cuò)的推理大模型。
也就是說(shuō),目前做推理模型,可以有四種方式:
第一種:純強(qiáng)化學(xué)習(xí)(DeepSeek-R1-zero)
第二種:SFT+強(qiáng)化學(xué)習(xí)(DeepSeek-R1)
第三種:純SFT(DeepSeek蒸餾模型)
第四種:純提示詞(低成本小模型)
“之前圈內(nèi)都是標(biāo)注SFT+強(qiáng)化學(xué)習(xí),大家都沒(méi)有想到,原來(lái)做純SFT和純做強(qiáng)化學(xué)習(xí),也能得到很好的效果?!眲⒙敱硎?。
DeepSeek的降本不僅給從業(yè)者帶來(lái)了技術(shù)上的啟發(fā),也影響著AI公司的發(fā)展路徑。
英諾天使基金合伙人王晟介紹,AI產(chǎn)業(yè)在跑通AGI方向上往往有兩種不同的路徑選擇:一個(gè)是“算力軍備”范式,堆技術(shù)堆錢(qián)堆算力,先把大模型性能拉至一個(gè)高點(diǎn),再考慮產(chǎn)業(yè)落地;另外一個(gè)是“算法效率”范式,一開(kāi)始就以產(chǎn)業(yè)落地為目標(biāo),通過(guò)架構(gòu)創(chuàng)新和工程化能力,推出低成本高性能模型。
“DeepSeek的一系列模型證明了,在天花板漲不動(dòng)的情況下,把重點(diǎn)放在優(yōu)化效率而非能力增長(zhǎng)上的范式具有可行性?!蓖蹶煞Q(chēng)。
從業(yè)者們相信,未來(lái)隨著算法的進(jìn)化,大模型的訓(xùn)練成本還會(huì)進(jìn)一步降低。
方舟投資管理公司的創(chuàng)始人兼CEO“木頭姐”曾指出,在DeepSeek之前,人工智能訓(xùn)練成本每年下降75%,推理成本甚至下降85%到90%。王晟也曾表示,年初發(fā)布的模型到年底再發(fā)布同樣的模型,成本都會(huì)有大幅度下降,甚至有可能降至1/10。
獨(dú)立研究機(jī)構(gòu)SemiAnalysis在最近一篇分析報(bào)告中指出,推理成本的下降是人工智能不斷進(jìn)步的標(biāo)志之一。原來(lái)需要超級(jí)計(jì)算機(jī)、多張GPU才能完成的GPT-3大模型性能,現(xiàn)在一些安裝在筆記本電腦上的小模型也能實(shí)現(xiàn)同樣效果。而且成本也下降了很多,Anthropic首席執(zhí)行官Dario認(rèn)為,算法定價(jià)成朝著GPT-3質(zhì)量發(fā)展,成本已經(jīng)降低1200倍。
未來(lái),大模型的降本速度還會(huì)越來(lái)越快。