文|讀懂財(cái)經(jīng)
上周,AI行業(yè)發(fā)生了兩件大事。
1月19日,Meta首席執(zhí)行官扎克伯格宣布,Meta內(nèi)部正在訓(xùn)練下一代模型Llama 3。截至今年年底,Meta將會(huì)有近35萬(wàn)塊H100搭建的基礎(chǔ)設(shè)施。1月21日,有媒體爆出消息,OpenAI CEO奧特曼正在籌集數(shù)十億美元,建立一個(gè)全球性的AI芯片工廠網(wǎng)絡(luò)。
這兩件事其實(shí)都和一個(gè)東西有關(guān)——算力。
在生成式 AI 快速爆發(fā)的時(shí)代,算力短缺是運(yùn)行 AI 模型面臨的主要困難,GPT-4、Gemini、Llama 2 和其他模型嚴(yán)重依賴 H100 GPU,但H100產(chǎn)能卻嚴(yán)重受限。即使像微軟、Meta 這樣大型科技公司,也需要提前數(shù)年預(yù)定產(chǎn)能,才能獲得足夠的新型芯片,更不用說(shuō)OpenAI了。
AI產(chǎn)業(yè)算力短缺的根源在于,在摩爾定律主導(dǎo)下,性能每18-24個(gè)月翻一番的芯片,難以滿足大模型參數(shù)規(guī)模的指數(shù)級(jí)增長(zhǎng)。用OpenAI的話說(shuō),每年訓(xùn)練AI模型所需算力增長(zhǎng)幅度高達(dá)10倍。這是瓶頸,也是機(jī)會(huì)。在新興技術(shù)的故事里,成本才是影響大模型落地。
換言之,這場(chǎng)以大模型為名的千億美金級(jí)豪賭實(shí)驗(yàn),最終能否將世界帶到新的摩爾時(shí)代,并不僅僅是看智能水平能提升到什么程度,更取決于模型發(fā)展會(huì)不會(huì)出現(xiàn)類似于摩爾定律的規(guī)律。
/ 01 / AI芯片,算力計(jì)算的“高地”
上周,Meta首席執(zhí)行官扎克伯格宣布,到2024年底Meta將擁有35萬(wàn)塊H100,擁有近60萬(wàn)個(gè)GPU等效算力。
35萬(wàn)塊H100,是個(gè)什么概念呢?眾所周知,訓(xùn)練大模型往往是最花費(fèi)算力的階段。OpenAI訓(xùn)練GPT-4,用了大約25000塊A100 GPU。作為A100的升級(jí)版,據(jù) Lambda 測(cè)算, H100 的訓(xùn)練吞吐量為A100的160%。也就是說(shuō),屆時(shí)Meta擁有的算力是訓(xùn)練GPT-4所用算力的20倍以上。
買這么多算力,扎克伯格自然也花了大價(jià)錢。目前,一塊英偉達(dá)H100售價(jià)為2.5萬(wàn)至3萬(wàn)美元,按3萬(wàn)美元計(jì)算,意味著小扎的公司僅購(gòu)買算力就需要支付約105億美元,更不用說(shuō)電費(fèi)了。
而這些算力很大部分將用于訓(xùn)練“Llama 3”大模型。扎克伯格表示,Meta將負(fù)責(zé)任地、安全地訓(xùn)練未來(lái)模型的路線圖。
在打算力主意的不止是小扎,還有OpenAI的奧特曼。同樣是上周爆出的消息,OpenAI CEO奧特曼正在籌集數(shù)十億美元,建立一個(gè)全球性的AI芯片工廠網(wǎng)絡(luò)。
目前,他正在和多家潛在的大型投資者進(jìn)行談判,包括總部設(shè)在阿布扎比的G42和軟銀集團(tuán)。根據(jù)彭博社的報(bào)道,僅在OpenAI與G42的談判中,涉及金額就接近80億到100億美元。
不過(guò)與小扎準(zhǔn)備打富裕仗不同,奧特曼親自下場(chǎng)制造AI芯片,更多是一種無(wú)奈。據(jù)外媒報(bào)道,這一事件背后的原因很可能就是,OpenAI已經(jīng)無(wú)「芯」訓(xùn)練「GPT-5」了。
此前,奧特曼表示,OpenAI已經(jīng)嚴(yán)重受到GPU限制,不得不推遲了眾多短期計(jì)劃(微調(diào)、專用容量、32k上下文窗口、多模態(tài)),甚至還一度影響到了API的可靠性和速度。
除了自己造芯外,OpenAI也在嘗試通過(guò)其他方式來(lái)獲得更低成本的算力。去年,就有媒體爆出,OpenAI從一家名為 Rain AI 的初創(chuàng)公司提前訂購(gòu)價(jià)值 5100 萬(wàn)美元的“神經(jīng)形態(tài)”類腦人工智能芯片,于2024年10月開(kāi)始供貨。
當(dāng)然,有自己下場(chǎng)造芯的可不止OpenAI一家,甚至進(jìn)度快的微軟、谷歌已經(jīng)將自研芯片用到大模型上了。
比如,Microsoft Azure Maia 是一款A(yù)I加速器芯片,可發(fā)揮類似英偉達(dá)GPU的功能,用于OpenAI模型等AI工作負(fù)載運(yùn)行云端訓(xùn)練和推理。而谷歌最新的AI 芯片TPUv5e在訓(xùn)練、推理參數(shù)少于2000億的大模型時(shí),成本也低于英偉達(dá)的A100或H100。
為什么所有大家都在絞盡腦汁搞算力,現(xiàn)在算力又發(fā)展到了什么程度呢?
/ 02 / 英偉達(dá),AI芯片的“王”
按照算力基礎(chǔ)設(shè)施構(gòu)成來(lái)看,包括 AI 芯片及服務(wù)器、交換機(jī)及光模塊、IDC 機(jī)房及上游產(chǎn)業(yè)鏈等。其中,AI芯片是其中的“大頭”,能夠占到服務(wù)器成本的55-75%。
從定義上說(shuō),能運(yùn)行 AI 算法的芯片都叫 AI 芯片。按技術(shù)架構(gòu),可分為CPU、GPU、FPGA、ASIC及類腦芯片。雖然都叫AI芯片,但在擅長(zhǎng)事情和應(yīng)用場(chǎng)景上有很大的差異。
就拿我們最熟悉的CPU和GPU來(lái)說(shuō),GPU更像是一大群工廠流水線上的工人,適合做大量的簡(jiǎn)單運(yùn)算,很復(fù)雜的搞不了,但是簡(jiǎn)單的事情做得非???,比CPU要快得多。而CPU更像是技術(shù)專家,可以做復(fù)雜的運(yùn)算,比如邏輯運(yùn)算、響應(yīng)用戶請(qǐng)求、網(wǎng)絡(luò)通信等。
看上去好像CPU比GPU更牛逼,但你不妨換個(gè)角度想,即使教授再神通廣大,也不能一秒鐘內(nèi)計(jì)算出 500 次加減法,因此對(duì)簡(jiǎn)單重復(fù)的計(jì)算來(lái)說(shuō),單單一個(gè)教授敵不過(guò)數(shù)量眾多的小學(xué)生。這就是為什么GPU被大量用戶AI大模型訓(xùn)練的原因。
在一個(gè)大模型構(gòu)建和迭代過(guò)程中,需要經(jīng)過(guò)大量的訓(xùn)練計(jì)算工作。通常來(lái)說(shuō),訓(xùn)練一次是幾乎不可能訓(xùn)練成功的,存在著大量的失敗和反復(fù),此外為保證模型迭代的更快,也需要進(jìn)行大量的并行訓(xùn)練。即便打造出第一版大模型,后續(xù)模型的持續(xù)迭代的成本無(wú)法避免。
根據(jù)此前披露的消息,GPT-4的FLOPS約為2.15e25,并利用約25000個(gè)A100 GPU進(jìn)行了90到100天的訓(xùn)練,如果OpenAI的云計(jì)算成本按每A100小時(shí)約1美元計(jì)算,那么在這樣的條件下,訓(xùn)練一次GPT-4的成本約為6300萬(wàn)美元。
但就是這樣一個(gè)支撐AI發(fā)展最重要的硬件領(lǐng)域,卻被一家公司牢牢掌握著話語(yǔ)權(quán),那就是英偉達(dá)。
用兩組數(shù)據(jù)可以側(cè)面證明英偉達(dá)在GPU領(lǐng)域的統(tǒng)治力:根據(jù) Liftr Insights 數(shù)據(jù),2022 年數(shù)據(jù)中心 AI 加速市場(chǎng)中,英偉達(dá)份額達(dá) 82%。根據(jù)不久前的數(shù)據(jù),2023年人工智能研究論文中使用的英偉達(dá)芯片比所有替代芯片的總和多19倍。
毫無(wú)疑問(wèn),英偉達(dá)是去年以來(lái)AI浪潮的最大贏家。2022年10月到現(xiàn)在,英偉達(dá)的股價(jià)從110美元左右上漲到近600美元,漲了500%。FactSet數(shù)據(jù)顯示,此前20個(gè)季度,英偉達(dá)有19個(gè)季度的業(yè)績(jī)都優(yōu)于市場(chǎng)預(yù)期。
2022年底,英偉達(dá)發(fā)布了最新的GPU產(chǎn)品——H100。相比A100,它的效率高達(dá)3倍,但成本只有(1.5-2倍)。更重要的問(wèn)題是,受限于產(chǎn)能緊張,H100仍然供不應(yīng)求。根據(jù)外媒報(bào)道,英偉達(dá)將在2024年,把H100的產(chǎn)量從去年的50萬(wàn)張左右直接提高到150-200萬(wàn)張。
英偉達(dá)的成功也說(shuō)明了一件事情:在大模型軍備競(jìng)賽里,最后挖礦的誰(shuí)能贏不知道,但買鏟子的一定賺錢,且短期內(nèi)有高議價(jià)權(quán)。
/ 03 / 摩爾定律,跟不上大模型進(jìn)化速度
既然AI芯片這么重要,那為什么還會(huì)如此短缺?歸根到底,AI芯片的性能提升仍然受限于摩爾定律,遠(yuǎn)遠(yuǎn)趕不上大模型參數(shù)的規(guī)模增長(zhǎng)。
一些重點(diǎn)研究實(shí)驗(yàn)室報(bào)告稱,公眾對(duì)大語(yǔ)言模型的使用率達(dá)到了驚人高度。2021年3月,OpenAI宣布其GPT-3語(yǔ)言模型被“超過(guò)300個(gè)應(yīng)用程序使用,平均每天能夠生成45億個(gè)詞”,也就是說(shuō)僅單個(gè)模型每分鐘就能生成310萬(wàn)詞的新內(nèi)容。
在這種情況下,AI模型對(duì)算力需求的增長(zhǎng)是驚人的。據(jù)OpenAI測(cè)算,自2012年以來(lái),人工智能模型訓(xùn)練算力需求每3~4個(gè)月就翻一番,每年訓(xùn)練AI模型所需算力增長(zhǎng)幅度高達(dá)10倍。
相比之下,GPU更迭效率仍然延續(xù)著摩爾定律。根據(jù)摩爾定律,芯片計(jì)算性能大約每18-24個(gè)月翻一番。從目前看,盡管H100相比A100性能有明顯提升,但并沒(méi)有像模型訓(xùn)練算力需求那樣有明顯數(shù)量級(jí)的增長(zhǎng)。
在這種情況下,想要追求算力的增長(zhǎng),只能做更大規(guī)模的分布式訓(xùn)練。簡(jiǎn)單來(lái)說(shuō),就是用更多數(shù)量的機(jī)器,來(lái)滿足訓(xùn)練所需的算力。這個(gè)方法的瓶頸在于,受網(wǎng)絡(luò)傳輸?shù)南拗?。目前,網(wǎng)絡(luò)傳輸最大是800G,這意味著分布式訓(xùn)練的規(guī)模也不會(huì)無(wú)限制增長(zhǎng)。
從種種跡象來(lái)看,巨型模型時(shí)代正在接近尾聲。拋開(kāi)缺少更多高質(zhì)量訓(xùn)練數(shù)據(jù)的原因,算力硬件迭代速度和日益高漲的訓(xùn)練成本也是一個(gè)重要原因。根據(jù)拾象CEO李廣密判斷,未來(lái)幾年OpenAI僅訓(xùn)練模型?少還得200-300億美元,Google200-300億美元,Anthropic100-200億美元,算下來(lái)未來(lái)幾年至少投入1000億美元純粹用到訓(xùn)練?模型。
在硬件提升有限的情況下,提高效率將成為很多大模型企業(yè)的選擇。據(jù)谷歌 PaLM 的 論文,在訓(xùn)練階段,缺乏優(yōu)化經(jīng)驗(yàn)或堆疊過(guò)多芯片,效率可能低至 20%,目前谷歌與 OpenAI 都能達(dá)到 50% 左右。前述機(jī)構(gòu)推測(cè)目前推理階段的效率只有25%左右,提升空間巨大。
在很多人看來(lái),大模型更像一場(chǎng)千億美金級(jí)豪賭實(shí)驗(yàn),有機(jī)會(huì)將人類帶入新的摩爾時(shí)代。在這個(gè)過(guò)程中,除了智能水平的提升,大模型訓(xùn)練、推理的成本下降會(huì)不會(huì)出現(xiàn)類似于摩爾定律的趨勢(shì),也是一個(gè)重要的觀察維度。
從過(guò)去看,一個(gè)新技術(shù)能不能真正走向大規(guī)模落地,往往不取決于技術(shù)有多強(qiáng),而是成本有多低。參考移動(dòng)互聯(lián)網(wǎng)應(yīng)用大規(guī)模爆發(fā),起于從3G到4G的所帶來(lái)的流量成本大幅下降。從目前看,這樣的故事大概率也將在人工智能領(lǐng)域發(fā)生。