文|IT時(shí)報(bào)記者 郝俊慧
編輯|孫妍
北京時(shí)間6月3日晚9點(diǎn)30分,美股開(kāi)盤(pán),經(jīng)過(guò)一個(gè)“漫長(zhǎng)”的周末,全球都在等待一個(gè)答案:英偉達(dá)能否超過(guò)蘋(píng)果,成為全球市值第二的公司。
截至北京時(shí)間4日凌晨4點(diǎn)收盤(pán),奇跡并沒(méi)發(fā)生,但兩者差距進(jìn)一步縮小。英偉達(dá)當(dāng)日上漲4.9%,市值為2.83萬(wàn)億美元,一夜大漲1270億美元,折合人民幣約9000億元。蘋(píng)果則定格在194.03美元,市值為2.98萬(wàn)億美元。
此前一天,英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛在2024中國(guó)臺(tái)北國(guó)際電腦展上發(fā)表主題演講,并宣布最新產(chǎn)品Blackwell已經(jīng)量產(chǎn),并預(yù)計(jì)將于2025年推出增強(qiáng)版Blackwell Ultra GPU。
這不是全部。
“英偉達(dá)將每年更新一代產(chǎn)品?!睍?huì)上,黃仁勛首次對(duì)外公布了預(yù)計(jì)2026年上市的下一代CPU“Vera”以及GPU“Rubin”,命名靈感來(lái)源于宇宙暗物質(zhì)研究先驅(qū)、美國(guó)女天文學(xué)家Vera Rubin,這個(gè)速度打破了以18個(gè)月為周期的“摩爾定律”。當(dāng)日,特斯拉CEO埃隆·馬斯克表示,旗下人工智能初創(chuàng)公司xAI將購(gòu)買(mǎi)30萬(wàn)塊英偉達(dá)B200 AI芯片。
長(zhǎng)達(dá)近2個(gè)小時(shí)的演講中,“皮衣教主”展示了一個(gè)強(qiáng)大的英偉達(dá)NVIDIA 生態(tài):芯片、系統(tǒng)、容器、網(wǎng)絡(luò)、平臺(tái)……基于GPU和CUDA,英偉達(dá)構(gòu)建了強(qiáng)大的護(hù)城河——“AI工廠(chǎng)”。
72顆“芯”組成的超級(jí)GPU
距離GTC發(fā)布還不到3個(gè)月,Blackwell便已經(jīng)量產(chǎn)。
黃仁勛手里拿著的GB200,被稱(chēng)為“史上最強(qiáng)”GPU,由兩塊Blackwell GPU和一塊Grace CPU組成,兩塊芯片以每秒10TB的速度鏈接,采用臺(tái)積電4納米制程工藝,共有2080億個(gè)晶體管,其AI性能為每秒20千萬(wàn)億次浮點(diǎn)運(yùn)算。
2016年,英偉達(dá)推出新一代GPU架構(gòu)Pascal,單芯片算力為19Tflops(每秒19萬(wàn)億次浮點(diǎn)計(jì)算),并以此為基礎(chǔ)推出了第一代AI超級(jí)計(jì)算機(jī)DGX1,算力為170Tflops(每秒170萬(wàn)億次浮點(diǎn)計(jì)算),黃仁勛將這臺(tái)機(jī)器交付給一家舊金山的初創(chuàng)公司OpenAI。
如今,八年過(guò)去,英偉達(dá)GPU芯片的計(jì)算能力、浮點(diǎn)運(yùn)算以及人工智能浮點(diǎn)運(yùn)算能力增長(zhǎng)了1000倍,“這速度幾乎超越了摩爾定律在最佳時(shí)期的增長(zhǎng)。”黃仁勛說(shuō)道。
基于Blackwell的英偉達(dá)新一代系統(tǒng)DGX B200也被黃仁勛帶到了電腦展,這塊碩大主板上配備8塊GPU,每個(gè)DGX 系統(tǒng)提供144PFlops(每秒144千萬(wàn)億次)的FP4浮點(diǎn)運(yùn)算性能,1.4TB海量顯存和64TB/s顯存帶寬。黃仁勛透露,DGX B200采用傳統(tǒng)的風(fēng)冷結(jié)構(gòu),支持x86系統(tǒng),配備于已發(fā)貨的服務(wù)器中。
但這依然不是One more thing?;贒GX系統(tǒng),英偉達(dá)設(shè)計(jì)了全新的液冷系統(tǒng)MGX,每個(gè)節(jié)點(diǎn)集成四塊GB 200超級(jí)芯片(8塊Blackwell),九個(gè)節(jié)點(diǎn),總共72塊Blackwell通過(guò)NV-Link形成了一個(gè)“超級(jí)GPU”,背后的NV Link主干由5000條銅線(xiàn)組成,加起來(lái)長(zhǎng)達(dá)3公里,其中的收發(fā)器可以驅(qū)動(dòng)信號(hào)跑完整個(gè)線(xiàn)路。
Hopper時(shí)代(H100、H200時(shí)期)的DGX系統(tǒng)最多只能同時(shí)支持8塊GPU,而MGX使NVlink可驅(qū)動(dòng)的GPU數(shù)量增加了8倍,帶寬增加了17倍。從功率上看,Blackwell的功耗略高于Hopper,9倍的GPU數(shù)量整體耗能是原先的10倍,但AI FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))提升了44倍,達(dá)1440PFlops,算力的“通貨膨脹率”相當(dāng)于1:4.5。
越來(lái)越像“半導(dǎo)體界的蘋(píng)果”
“Buy more and save more(買(mǎi)得越多省得越多)”,黃仁勛一向擅長(zhǎng)向CEO們兜售他的“CEO數(shù)學(xué)”。
不過(guò),即便是對(duì)于財(cái)大氣粗的全球頂尖互聯(lián)網(wǎng)公司而言,Blackwell的價(jià)格也很“辣手”。
英偉達(dá)還未公布Blacwell的價(jià)格,但有匯豐銀行分析師認(rèn)為,英偉達(dá)“入門(mén)級(jí)”B100 GPU 的平均銷(xiāo)售價(jià)格(ASP)將在 3 萬(wàn)至 3.5 萬(wàn)美元之間,與英偉達(dá) H100 的價(jià)格相差無(wú)幾,而功能更強(qiáng)大的GB 200,價(jià)格可能在6萬(wàn)至7萬(wàn)美元之間。至于搭載Blackwell GPU的MGX服務(wù)器,單價(jià)預(yù)計(jì)高達(dá) 300 萬(wàn)美元(約等于2174萬(wàn)人民幣)。
“Blackwell正在滿(mǎn)負(fù)荷生產(chǎn)?!?月22日舉行的英偉達(dá)一季度財(cái)報(bào)業(yè)績(jī)說(shuō)明會(huì)上,黃仁勛透露,Blackwell將在第二季度開(kāi)始交付,三季度產(chǎn)能爬坡,四季度便能讓客戶(hù)建成基于Blackwell的數(shù)據(jù)中心。
在黃仁勛的設(shè)想中,英偉達(dá)交付的是一座AI工廠(chǎng),構(gòu)建了覆蓋整個(gè)數(shù)據(jù)中心的解決方案,一個(gè)綜合CPU、GPU、NVLink、NICK(特定技術(shù)組件)以及NVLink交換機(jī)等多個(gè)元素的完整系統(tǒng),甚至可以說(shuō)是為人工智能巨頭提供的“交鑰匙方案”,“為此,我們不遺余力地將所有技術(shù)推向極限,無(wú)論是臺(tái)積電的工藝技術(shù)、封裝技術(shù)、內(nèi)存技術(shù),還是光學(xué)技術(shù)?!秉S仁勛表示。
這聽(tīng)起來(lái)就是個(gè)“極致”昂貴的方案,可至少在目前,英偉達(dá)還沒(méi)有競(jìng)爭(zhēng)對(duì)手。盡管最近各大巨頭都有自己的芯片規(guī)劃,谷歌、英特爾和高通成立了UXL基金會(huì),專(zhuān)門(mén)用來(lái)開(kāi)發(fā)一套支持多種AI加速器芯片的軟件和工具,以此對(duì)抗英偉達(dá)的CUDA生態(tài)。但黃仁勛明確的“一年一更新節(jié)奏”,使這種追趕還未出“起跑線(xiàn)”,便有被“超圈”的感覺(jué)。
在介紹產(chǎn)品細(xì)節(jié)時(shí),黃仁勛明確指出,所有產(chǎn)品保持100%的架構(gòu)兼容性,也就是說(shuō),Hopper可以平滑升級(jí)至Blackwell,而且所有軟件都具有向后兼容的慣性。也正因此,Blackwell平臺(tái)從問(wèn)世到投產(chǎn)的時(shí)間,明顯快于此前的A系列和H系列。
黃仁勛一口氣宣布了三年升級(jí)計(jì)劃:2025年是Blackwell Ultra,2026年是新一代的Rubin,2027年是Rubin Ultra。
至少在兩年內(nèi),“尺度定律”(scaling law)在通用大模型迭代上仍有決定性作用,對(duì)英偉達(dá)而言,這是比算力增長(zhǎng)“黃氏定律”還要深的護(hù)城河。
參數(shù)級(jí)越大的大模型訓(xùn)練,越依賴(lài)于超大規(guī)模的GPU集群以及超高速的GPU連接。英偉達(dá)的新一代NVLINK交換機(jī)擁有500億個(gè)晶體管,74個(gè)端口,每個(gè)端口的數(shù)據(jù)速率高達(dá)400 GB,是72顆芯片變成1顆超級(jí)芯片的“幕后功臣”。
如果說(shuō)NVLINK解決的是GPU和GPU之間的連接問(wèn)題,那么將一個(gè)個(gè)AI服務(wù)器連接起來(lái)的網(wǎng)絡(luò)交換機(jī)也是必須的。以往,英偉達(dá)專(zhuān)注于InfiniBand交換機(jī),一種高效但需要專(zhuān)用技術(shù)的設(shè)備,有一定應(yīng)用門(mén)檻,但現(xiàn)在英偉達(dá)推出了面向以太網(wǎng)的交換機(jī)——Spectrum X800,可以每秒51.2 TB的速度和256路徑(radix)的支持能力,為成千上萬(wàn)的GPU提供了高效的網(wǎng)絡(luò)連接。Spectrum同樣是一年一升級(jí),預(yù)計(jì)兩年后發(fā)布的X 1600,是為更大規(guī)模的數(shù)據(jù)中心設(shè)計(jì),能夠滿(mǎn)足數(shù)百萬(wàn)個(gè)GPU的通信需求。
英偉達(dá)今年一季度財(cái)報(bào)顯示,與去年相比,不僅計(jì)算收入增長(zhǎng)了5倍多,網(wǎng)絡(luò)收入也增長(zhǎng)了3倍多。
英偉達(dá)還推出了一種推理微服務(wù)NIM,可以通過(guò)優(yōu)化的容器形式提供模型——部署在云、數(shù)據(jù)中心或工作站上,開(kāi)發(fā)者不再需要使用具有不同功能的多個(gè)模型來(lái)生成文本、圖像、視頻、語(yǔ)音等,只要使用NIM,便可以輕松地為copilots、聊天機(jī)器人等構(gòu)建生成式 AI 應(yīng)用,所需時(shí)間從數(shù)周縮短至幾分鐘。
無(wú)論是對(duì)軟硬件生態(tài)極致的追求,還是一年一升級(jí)的節(jié)奏,英偉達(dá)越來(lái)越像半導(dǎo)體界的蘋(píng)果。
AI的盡頭是電力
不過(guò),再理想的未來(lái),在能源問(wèn)題面前,也可能會(huì)放緩腳步。
IEA 最近的《電力 2024》報(bào)告預(yù)測(cè),到 2026 年,人工智能數(shù)據(jù)中心的電力需求將達(dá)到 90 太瓦時(shí)(TWh),這意味著,數(shù)據(jù)中心的關(guān)鍵IT電力容量要達(dá)到約10吉瓦(GW)功率,相當(dāng)于730萬(wàn)個(gè)H100的電力需求。
打造百萬(wàn)塊GPU芯片超級(jí)集群的數(shù)據(jù)中心,并非不可能。黃仁勛在演講中放言,“隨著技術(shù)的不斷進(jìn)步,數(shù)百萬(wàn)個(gè)GPU的數(shù)據(jù)中心時(shí)代指日可待?!?/p>
“宏偉”目標(biāo)背后暗含的判斷是,一方面,更大、更復(fù)雜的大模型需要被訓(xùn)練,另一方面,未來(lái)的互聯(lián)網(wǎng)和計(jì)算機(jī)交互將越來(lái)越多地依賴(lài)于云端的生成式人工智能,而所謂云端背后,依然是超大規(guī)模的智算中心。
但電在哪里呢?不久前,AWS(亞馬遜云科技)剛剛以6.5億美元購(gòu)買(mǎi)了一個(gè) 1000兆瓦的核能源數(shù)據(jù)中心園區(qū),可分析機(jī)構(gòu)SemiAnalysis認(rèn)為,亞馬遜還有很多年才能實(shí)現(xiàn)整個(gè)電力供應(yīng)能力。
SemiAnalysis曾測(cè)算,在利用率為80%且PUE為1.25的情況下,一個(gè)有20480個(gè)GPU集群的數(shù)據(jù)中心平均將從電網(wǎng)獲取 28~29MW 功率,每年總計(jì)能耗25萬(wàn)兆瓦時(shí)左右。因此,數(shù)據(jù)中心、云服務(wù)商、大模型廠(chǎng)商必須考慮在現(xiàn)有電力供應(yīng)條件下進(jìn)行訓(xùn)練。
來(lái)自供應(yīng)鏈的估算,英偉達(dá)在2024年將出貨300 萬(wàn)個(gè)以上GPU,對(duì)應(yīng)超過(guò) 4200兆瓦時(shí)的數(shù)據(jù)中心需求,接近當(dāng)前全球數(shù)據(jù)中心容量的10%,而這只是一年的 GPU 出貨量。
不難理解,為什么最近幾次演講中,黃仁勛反復(fù)強(qiáng)調(diào)英偉達(dá)GPU日趨下降的算力能耗比。
以Pascal為例,訓(xùn)練GPT-4模型將消耗高達(dá)1000吉瓦時(shí)(1吉瓦時(shí)等于1000兆瓦)電能,放眼全球,暫時(shí)還沒(méi)有一個(gè)數(shù)據(jù)中心具有這么高的電力配備,這也是2020年前大模型為什么沒(méi)有出現(xiàn)的原因之一。
從時(shí)間上看,訓(xùn)練一次GPT-4,使用Pascal大概需要一年;使用Hopper,可能需要三個(gè)月;換成Blackwell,10000顆芯片訓(xùn)練同樣大小的模型,只需要3吉瓦時(shí),耗時(shí)10天。
這是GPT-4模型首次公開(kāi)訓(xùn)練數(shù)據(jù):2萬(wàn)億參數(shù)和8萬(wàn)億Token。參數(shù)量是GPT-3.5的11倍之多。
只是問(wèn)題在于,業(yè)內(nèi)普遍認(rèn)為,GPT-4o,甚至GPT-5的參數(shù)級(jí)應(yīng)該在數(shù)十萬(wàn)億以上。因此,盡管黃仁勛表示,Blackwell使得生成每個(gè)Token只需消耗0.4焦耳的能量,可從絕對(duì)值上看,每臺(tái)DGX H100服務(wù)器的平均功率在11千瓦左右,每臺(tái)DGX B200耗能15千瓦,而MGX的功率是100千瓦。
事實(shí)上,大多數(shù)現(xiàn)有的數(shù)據(jù)中心尚未準(zhǔn)備好支持每機(jī)架 20kW 以上的功率密度。一位數(shù)據(jù)中心人士曾告訴記者,原先能放10U的傳統(tǒng)服務(wù)器機(jī)架,現(xiàn)在只能放一臺(tái)智算服務(wù)器。
大批新型智算數(shù)據(jù)中心正在投建。SemiAnalysis的一份報(bào)告確認(rèn),OpenAI 計(jì)劃在其最大的多站點(diǎn)訓(xùn)練集群中部署數(shù)十萬(wàn)顆GPU,這需要數(shù)百兆瓦的關(guān)鍵IT電力供應(yīng)。同時(shí),有消息傳出,Meta的H100安裝量會(huì)達(dá)65萬(wàn)顆。
“真正的電力短缺局面即將到來(lái)?!盨emiAnalysis在報(bào)告中指出,全球數(shù)據(jù)中心關(guān)鍵IT電力需求將激增至2026年的96吉瓦,其中人工智能將消耗約40吉瓦。
AI的盡頭是電力,而英偉達(dá)的最終對(duì)手,可能也是它。
排版/ 季嘉穎