免费在线亚洲影院,一级做a爰片久久毛片免费陪

文｜讀懂財(cái)經(jīng)

上周，AI行業(yè)發(fā)生了兩件大事。

1月19日，Meta首席執(zhí)行官扎克伯格宣布，Meta內(nèi)部正在訓(xùn)練下一代模型Llama 3。截至今年年底，Meta將會(huì)有近35萬(wàn)塊H100搭建的基礎(chǔ)設(shè)施。1月21日，有媒體爆出消息，OpenAI CEO奧特曼正在籌集數(shù)十億美元，建立一個(gè)全球性的AI芯片工廠網(wǎng)絡(luò)。

這兩件事其實(shí)都和一個(gè)東西有關(guān)——算力。

在生成式 AI 快速爆發(fā)的時(shí)代，算力短缺是運(yùn)行 AI 模型面臨的主要困難，GPT-4、Gemini、Llama 2 和其他模型嚴(yán)重依賴 H100 GPU，但H100產(chǎn)能卻嚴(yán)重受限。即使像微軟、Meta 這樣大型科技公司，也需要提前數(shù)年預(yù)定產(chǎn)能，才能獲得足夠的新型芯片，更不用說(shuō)OpenAI了。

AI產(chǎn)業(yè)算力短缺的根源在于，在摩爾定律主導(dǎo)下，性能每18-24個(gè)月翻一番的芯片，難以滿足大模型參數(shù)規(guī)模的指數(shù)級(jí)增長(zhǎng)。用OpenAI的話說(shuō)，每年訓(xùn)練AI模型所需算力增長(zhǎng)幅度高達(dá)10倍。這是瓶頸，也是機(jī)會(huì)。在新興技術(shù)的故事里，成本才是影響大模型落地。

換言之，這場(chǎng)以大模型為名的千億美金級(jí)豪賭實(shí)驗(yàn)，最終能否將世界帶到新的摩爾時(shí)代，并不僅僅是看智能水平能提升到什么程度，更取決于模型發(fā)展會(huì)不會(huì)出現(xiàn)類似于摩爾定律的規(guī)律。

/ 01 / AI芯片，算力計(jì)算的“高地”

上周，Meta首席執(zhí)行官扎克伯格宣布，到2024年底Meta將擁有35萬(wàn)塊H100，擁有近60萬(wàn)個(gè)GPU等效算力。

35萬(wàn)塊H100，是個(gè)什么概念呢？眾所周知，訓(xùn)練大模型往往是最花費(fèi)算力的階段。OpenAI訓(xùn)練GPT-4，用了大約25000塊A100 GPU。作為A100的升級(jí)版，據(jù) Lambda 測(cè)算， H100 的訓(xùn)練吞吐量為A100的160%。也就是說(shuō)，屆時(shí)Meta擁有的算力是訓(xùn)練GPT-4所用算力的20倍以上。

買這么多算力，扎克伯格自然也花了大價(jià)錢。目前，一塊英偉達(dá)H100售價(jià)為2.5萬(wàn)至3萬(wàn)美元，按3萬(wàn)美元計(jì)算，意味著小扎的公司僅購(gòu)買算力就需要支付約105億美元，更不用說(shuō)電費(fèi)了。

而這些算力很大部分將用于訓(xùn)練“Llama 3”大模型。扎克伯格表示，Meta將負(fù)責(zé)任地、安全地訓(xùn)練未來(lái)模型的路線圖。

在打算力主意的不止是小扎，還有OpenAI的奧特曼。同樣是上周爆出的消息，OpenAI CEO奧特曼正在籌集數(shù)十億美元，建立一個(gè)全球性的AI芯片工廠網(wǎng)絡(luò)。

目前，他正在和多家潛在的大型投資者進(jìn)行談判，包括總部設(shè)在阿布扎比的G42和軟銀集團(tuán)。根據(jù)彭博社的報(bào)道，僅在OpenAI與G42的談判中，涉及金額就接近80億到100億美元。

不過(guò)與小扎準(zhǔn)備打富裕仗不同，奧特曼親自下場(chǎng)制造AI芯片，更多是一種無(wú)奈。據(jù)外媒報(bào)道，這一事件背后的原因很可能就是，OpenAI已經(jīng)無(wú)「芯」訓(xùn)練「GPT-5」了。

此前，奧特曼表示，OpenAI已經(jīng)嚴(yán)重受到GPU限制，不得不推遲了眾多短期計(jì)劃（微調(diào)、專用容量、32k上下文窗口、多模態(tài)），甚至還一度影響到了API的可靠性和速度。

除了自己造芯外，OpenAI也在嘗試通過(guò)其他方式來(lái)獲得更低成本的算力。去年，就有媒體爆出，OpenAI從一家名為 Rain AI 的初創(chuàng)公司提前訂購(gòu)價(jià)值 5100 萬(wàn)美元的“神經(jīng)形態(tài)”類腦人工智能芯片，于2024年10月開(kāi)始供貨。

當(dāng)然，有自己下場(chǎng)造芯的可不止OpenAI一家，甚至進(jìn)度快的微軟、谷歌已經(jīng)將自研芯片用到大模型上了。

比如，Microsoft Azure Maia 是一款A(yù)I加速器芯片，可發(fā)揮類似英偉達(dá)GPU的功能，用于OpenAI模型等AI工作負(fù)載運(yùn)行云端訓(xùn)練和推理。而谷歌最新的AI 芯片TPUv5e在訓(xùn)練、推理參數(shù)少于2000億的大模型時(shí)，成本也低于英偉達(dá)的A100或H100。

為什么所有大家都在絞盡腦汁搞算力，現(xiàn)在算力又發(fā)展到了什么程度呢？

/ 02 / 英偉達(dá)，AI芯片的“王”

按照算力基礎(chǔ)設(shè)施構(gòu)成來(lái)看，包括 AI 芯片及服務(wù)器、交換機(jī)及光模塊、IDC 機(jī)房及上游產(chǎn)業(yè)鏈等。其中，AI芯片是其中的“大頭”，能夠占到服務(wù)器成本的55-75%。

從定義上說(shuō)，能運(yùn)行 AI 算法的芯片都叫 AI 芯片。按技術(shù)架構(gòu)，可分為CPU、GPU、FPGA、ASIC及類腦芯片。雖然都叫AI芯片，但在擅長(zhǎng)事情和應(yīng)用場(chǎng)景上有很大的差異。

就拿我們最熟悉的CPU和GPU來(lái)說(shuō)，GPU更像是一大群工廠流水線上的工人，適合做大量的簡(jiǎn)單運(yùn)算，很復(fù)雜的搞不了，但是簡(jiǎn)單的事情做得非?？?，比CPU要快得多。而CPU更像是技術(shù)專家，可以做復(fù)雜的運(yùn)算，比如邏輯運(yùn)算、響應(yīng)用戶請(qǐng)求、網(wǎng)絡(luò)通信等。

看上去好像CPU比GPU更牛逼，但你不妨換個(gè)角度想，即使教授再神通廣大，也不能一秒鐘內(nèi)計(jì)算出 500 次加減法，因此對(duì)簡(jiǎn)單重復(fù)的計(jì)算來(lái)說(shuō)，單單一個(gè)教授敵不過(guò)數(shù)量眾多的小學(xué)生。這就是為什么GPU被大量用戶AI大模型訓(xùn)練的原因。

在一個(gè)大模型構(gòu)建和迭代過(guò)程中，需要經(jīng)過(guò)大量的訓(xùn)練計(jì)算工作。通常來(lái)說(shuō)，訓(xùn)練一次是幾乎不可能訓(xùn)練成功的，存在著大量的失敗和反復(fù)，此外為保證模型迭代的更快，也需要進(jìn)行大量的并行訓(xùn)練。即便打造出第一版大模型，后續(xù)模型的持續(xù)迭代的成本無(wú)法避免。

根據(jù)此前披露的消息，GPT-4的FLOPS約為2.15e25，并利用約25000個(gè)A100 GPU進(jìn)行了90到100天的訓(xùn)練，如果OpenAI的云計(jì)算成本按每A100小時(shí)約1美元計(jì)算，那么在這樣的條件下，訓(xùn)練一次GPT-4的成本約為6300萬(wàn)美元。

但就是這樣一個(gè)支撐AI發(fā)展最重要的硬件領(lǐng)域，卻被一家公司牢牢掌握著話語(yǔ)權(quán)，那就是英偉達(dá)。

用兩組數(shù)據(jù)可以側(cè)面證明英偉達(dá)在GPU領(lǐng)域的統(tǒng)治力：根據(jù) Liftr Insights 數(shù)據(jù)，2022 年數(shù)據(jù)中心 AI 加速市場(chǎng)中，英偉達(dá)份額達(dá) 82%。根據(jù)不久前的數(shù)據(jù)，2023年人工智能研究論文中使用的英偉達(dá)芯片比所有替代芯片的總和多19倍。

毫無(wú)疑問(wèn)，英偉達(dá)是去年以來(lái)AI浪潮的最大贏家。2022年10月到現(xiàn)在，英偉達(dá)的股價(jià)從110美元左右上漲到近600美元，漲了500%。FactSet數(shù)據(jù)顯示，此前20個(gè)季度，英偉達(dá)有19個(gè)季度的業(yè)績(jī)都優(yōu)于市場(chǎng)預(yù)期。

2022年底，英偉達(dá)發(fā)布了最新的GPU產(chǎn)品——H100。相比A100，它的效率高達(dá)3倍，但成本只有（1.5-2倍）。更重要的問(wèn)題是，受限于產(chǎn)能緊張，H100仍然供不應(yīng)求。根據(jù)外媒報(bào)道，英偉達(dá)將在2024年，把H100的產(chǎn)量從去年的50萬(wàn)張左右直接提高到150-200萬(wàn)張。

英偉達(dá)的成功也說(shuō)明了一件事情：在大模型軍備競(jìng)賽里，最后挖礦的誰(shuí)能贏不知道，但買鏟子的一定賺錢，且短期內(nèi)有高議價(jià)權(quán)。

/ 03 / 摩爾定律，跟不上大模型進(jìn)化速度

既然AI芯片這么重要，那為什么還會(huì)如此短缺？歸根到底，AI芯片的性能提升仍然受限于摩爾定律，遠(yuǎn)遠(yuǎn)趕不上大模型參數(shù)的規(guī)模增長(zhǎng)。

一些重點(diǎn)研究實(shí)驗(yàn)室報(bào)告稱，公眾對(duì)大語(yǔ)言模型的使用率達(dá)到了驚人高度。2021年3月，OpenAI宣布其GPT-3語(yǔ)言模型被“超過(guò)300個(gè)應(yīng)用程序使用，平均每天能夠生成45億個(gè)詞”，也就是說(shuō)僅單個(gè)模型每分鐘就能生成310萬(wàn)詞的新內(nèi)容。

在這種情況下，AI模型對(duì)算力需求的增長(zhǎng)是驚人的。據(jù)OpenAI測(cè)算，自2012年以來(lái)，人工智能模型訓(xùn)練算力需求每3~4個(gè)月就翻一番，每年訓(xùn)練AI模型所需算力增長(zhǎng)幅度高達(dá)10倍。

相比之下，GPU更迭效率仍然延續(xù)著摩爾定律。根據(jù)摩爾定律，芯片計(jì)算性能大約每18-24個(gè)月翻一番。從目前看，盡管H100相比A100性能有明顯提升，但并沒(méi)有像模型訓(xùn)練算力需求那樣有明顯數(shù)量級(jí)的增長(zhǎng)。

在這種情況下，想要追求算力的增長(zhǎng)，只能做更大規(guī)模的分布式訓(xùn)練。簡(jiǎn)單來(lái)說(shuō)，就是用更多數(shù)量的機(jī)器，來(lái)滿足訓(xùn)練所需的算力。這個(gè)方法的瓶頸在于，受網(wǎng)絡(luò)傳輸?shù)南拗?。目前，網(wǎng)絡(luò)傳輸最大是800G，這意味著分布式訓(xùn)練的規(guī)模也不會(huì)無(wú)限制增長(zhǎng)。

從種種跡象來(lái)看，巨型模型時(shí)代正在接近尾聲。拋開(kāi)缺少更多高質(zhì)量訓(xùn)練數(shù)據(jù)的原因，算力硬件迭代速度和日益高漲的訓(xùn)練成本也是一個(gè)重要原因。根據(jù)拾象CEO李廣密判斷，未來(lái)幾年OpenAI僅訓(xùn)練模型?少還得200-300億美元，Google200-300億美元，Anthropic100-200億美元，算下來(lái)未來(lái)幾年至少投入1000億美元純粹用到訓(xùn)練?模型。

在硬件提升有限的情況下，提高效率將成為很多大模型企業(yè)的選擇。據(jù)谷歌 PaLM 的論文，在訓(xùn)練階段，缺乏優(yōu)化經(jīng)驗(yàn)或堆疊過(guò)多芯片，效率可能低至 20%，目前谷歌與 OpenAI 都能達(dá)到 50% 左右。前述機(jī)構(gòu)推測(cè)目前推理階段的效率只有25%左右，提升空間巨大。

在很多人看來(lái)，大模型更像一場(chǎng)千億美金級(jí)豪賭實(shí)驗(yàn)，有機(jī)會(huì)將人類帶入新的摩爾時(shí)代。在這個(gè)過(guò)程中，除了智能水平的提升，大模型訓(xùn)練、推理的成本下降會(huì)不會(huì)出現(xiàn)類似于摩爾定律的趨勢(shì)，也是一個(gè)重要的觀察維度。

從過(guò)去看，一個(gè)新技術(shù)能不能真正走向大規(guī)模落地，往往不取決于技術(shù)有多強(qiáng)，而是成本有多低。參考移動(dòng)互聯(lián)網(wǎng)應(yīng)用大規(guī)模爆發(fā)，起于從3G到4G的所帶來(lái)的流量成本大幅下降。從目前看，這樣的故事大概率也將在人工智能領(lǐng)域發(fā)生。

文｜讀懂財(cái)經(jīng)

上周，AI行業(yè)發(fā)生了兩件大事。

這兩件事其實(shí)都和一個(gè)東西有關(guān)——算力。

/ 01 / AI芯片，算力計(jì)算的“高地”

上周，Meta首席執(zhí)行官扎克伯格宣布，到2024年底Meta將擁有35萬(wàn)塊H100，擁有近60萬(wàn)個(gè)GPU等效算力。

而這些算力很大部分將用于訓(xùn)練“Llama 3”大模型。扎克伯格表示，Meta將負(fù)責(zé)任地、安全地訓(xùn)練未來(lái)模型的路線圖。

當(dāng)然，有自己下場(chǎng)造芯的可不止OpenAI一家，甚至進(jìn)度快的微軟、谷歌已經(jīng)將自研芯片用到大模型上了。

為什么所有大家都在絞盡腦汁搞算力，現(xiàn)在算力又發(fā)展到了什么程度呢？

/ 02 / 英偉達(dá)，AI芯片的“王”

就拿我們最熟悉的CPU和GPU來(lái)說(shuō)，GPU更像是一大群工廠流水線上的工人，適合做大量的簡(jiǎn)單運(yùn)算，很復(fù)雜的搞不了，但是簡(jiǎn)單的事情做得非?？欤菴PU要快得多。而CPU更像是技術(shù)專家，可以做復(fù)雜的運(yùn)算，比如邏輯運(yùn)算、響應(yīng)用戶請(qǐng)求、網(wǎng)絡(luò)通信等。

但就是這樣一個(gè)支撐AI發(fā)展最重要的硬件領(lǐng)域，卻被一家公司牢牢掌握著話語(yǔ)權(quán)，那就是英偉達(dá)。

/ 03 / 摩爾定律，跟不上大模型進(jìn)化速度

在這種情況下，想要追求算力的增長(zhǎng)，只能做更大規(guī)模的分布式訓(xùn)練。簡(jiǎn)單來(lái)說(shuō)，就是用更多數(shù)量的機(jī)器，來(lái)滿足訓(xùn)練所需的算力。這個(gè)方法的瓶頸在于，受網(wǎng)絡(luò)傳輸?shù)南拗啤Ｄ壳?，網(wǎng)絡(luò)傳輸最大是800G，這意味著分布式訓(xùn)練的規(guī)模也不會(huì)無(wú)限制增長(zhǎng)。

歷史搜索全部刪除

熱門搜索

Meta、OpenAI為何扎堆AI芯片？大模型背后的算力之爭(zhēng)

/ 01 / AI芯片，算力計(jì)算的“高地”

/ 02 / 英偉達(dá)，AI芯片的“王”

/ 03 / 摩爾定律，跟不上大模型進(jìn)化速度

OpenAI

Facebook

評(píng)論

Meta、OpenAI為何扎堆AI芯片？大模型背后的算力之爭(zhēng)

/ 01 / AI芯片，算力計(jì)算的“高地”

/ 02 / 英偉達(dá)，AI芯片的“王”

/ 03 / 摩爾定律，跟不上大模型進(jìn)化速度

Meta、OpenAI為何扎堆AI芯片？大模型背后的算力之爭(zhēng)

/ 01 / AI芯片，算力計(jì)算的“高地”

/ 02 / 英偉達(dá)，AI芯片的“王”

/ 03 / 摩爾定律，跟不上大模型進(jìn)化速度

OpenAI

Facebook

評(píng)論

Meta、OpenAI為何扎堆AI芯片？大模型背后的算力之爭(zhēng)

/ 01 / AI芯片，算力計(jì)算的“高地”

/ 02 / 英偉達(dá)，AI芯片的“王”

/ 03 / 摩爾定律，跟不上大模型進(jìn)化速度

Meta、OpenAI為何扎堆AI芯片？大模型背后的算力之爭(zhēng)

/ 01 / AI芯片，算力計(jì)算的“高地”

/ 02 / 英偉達(dá)，AI芯片的“王”

/ 03 / 摩爾定律，跟不上大模型進(jìn)化速度

Meta、OpenAI為何扎堆AI芯片？大模型背后的算力之爭(zhēng)

/ 01 / AI芯片，算力計(jì)算的“高地”

/ 02 / 英偉達(dá)，AI芯片的“王”