正在閱讀:

搶電、圈地、對賭,深聊科技巨頭的千億美元AI能源大戰(zhàn)

掃一掃下載界面新聞APP

搶電、圈地、對賭,深聊科技巨頭的千億美元AI能源大戰(zhàn)

各大巨頭因AI軍備競賽,紛紛搶建數(shù)據(jù)中心,從搶芯片變成了搶能源。

圖片來源:界面新聞匡達(dá)

文|硅谷101

聽說,OpenAI訓(xùn)練GPT-6的時候,把微軟電網(wǎng)給搞崩了?小伙伴們,你們有沒有想過,生成式AI軍備競賽持續(xù)之際,AI會有多耗電嗎?

OpenAI訓(xùn)練GPT-3大概消耗了1300兆瓦的電力,如果將這些電用來看網(wǎng)絡(luò)流媒體視頻,可以播放1625000小時,也就是185.5年。

我們再換一個方式呈現(xiàn),研究人員發(fā)現(xiàn),將大模型用于AI文生圖,平均下來每生成一張圖片的耗電量,就能把一個手機(jī)充滿。

再來一個宏觀點(diǎn)的例子,我們做這期視頻的2024年,全美AI數(shù)據(jù)中心的耗電量將占據(jù)全美總用電量的2.5%。

但這,只是開始。硅谷的科技的大廠們:英偉達(dá)、谷歌、微軟、亞馬遜、Meta、特斯拉、甲骨文等一眾巨頭開始搭建大型數(shù)據(jù)中心之際,OpenAI直接聯(lián)手微軟打造了耗資1000億美元的數(shù)據(jù)中心“星際之門”(Stargate)。

隨著上萬張GPU顯卡集群成為訓(xùn)練生成式AI的標(biāo)配,硅谷開始卷多模態(tài)大模型,Scaling law(規(guī)模法則)依然是萬能解藥,可想而知,耗電量會指數(shù)級上漲。

歡迎大家來到硅谷101,這期內(nèi)容我們就來聊聊,AI發(fā)展將會帶來的能源挑戰(zhàn)。首先我們來回答一個問題:為什么訓(xùn)練大模型會如此耗電。

01 為何生成式AI如此耗電?

1961年,為IBM效力的物理學(xué)家Rolf Landauer提出了Landauer's Principle(蘭道爾原理)。

指出計算機(jī)中存儲的信息發(fā)生不可逆的變化時,系統(tǒng)的熵會增加,且伴隨著能量的耗散。簡單來說,處理信息是有能量成本的。

1.1 AI訓(xùn)練與推理:處理信息能量成本

自從生成式AI確立使用Transformer架構(gòu)并遵循“Scaling law”用巨量參數(shù)以來,AI大模型和“大量計算”就綁定在了一起。這就意味著,大模型運(yùn)作中的“訓(xùn)練”(Training)和“推理”(Inference)都會涉及大量計算和信息處理,或者說,巨大的能量成本。

前者,在訓(xùn)練階段,AI大模型需要收集和預(yù)處理大量的文本數(shù)據(jù),然后初始化參數(shù),處理數(shù)據(jù),生成輸出,調(diào)整,優(yōu)化等等,而且隨著模型的迭代,需要處理的參數(shù)是指數(shù)級別的增長:GPT3是1750億個參數(shù),GPT4是1.8萬億個,GPT5可能會突破10萬億參數(shù),而傳說正在訓(xùn)練的GPT6則可能數(shù)百萬億甚至千萬億參數(shù)的量級。

而硅谷頂級孵化器YC的前總監(jiān)Kyle Corbitt在他的推特上爆料說,他在跟一個微軟工程師聊天時,對方告訴他GPT-6的訓(xùn)練曾經(jīng)讓微軟電網(wǎng)超負(fù)荷崩潰,所以無法在同一個州部署超過10萬顆H100的GPU。

電網(wǎng)為什么會崩潰我們稍后會解釋,但這里想跟大家說的是,可見訓(xùn)練GPT-6的耗電有多么可怕。而在訓(xùn)練完畢之后,“推理”同樣需要非常大的算力和電力支持。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

我的理解是現(xiàn)在我們還處在就是AI訓(xùn)練大模型的一個階段,這些模型訓(xùn)練出來之后,它之后的應(yīng)用,它的推理應(yīng)用等等,那才是最大消耗能源的地方,那用電量的話可能要比你訓(xùn)練那幾個月AI模型的用電量要大的多的。

我們知道,Transformer是自回歸模型,這意味著推理過程中涉及多輪重復(fù)計算;而在之后的生成階段,每生成一個token,都需要與顯存進(jìn)行數(shù)據(jù)交互。

我們在開頭說了,一張AI文生圖的平均耗電量是能把手機(jī)充滿電的電量。而聊天應(yīng)用ChatGPT每天響應(yīng)約2億個需求,消耗超過50萬度電力,相當(dāng)于1.7萬個美國家庭平均一天的用電量。

所以,無論是訓(xùn)練還是推理階段,模型的參數(shù)量越大,需要處理的數(shù)據(jù)越多,所需的計算量就越大,消耗的能量也就越大,釋放的熱量也越多。而反過來,這又需要更強(qiáng)大的芯片,這樣的追求是無止盡的。

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

我個人感覺他這對這芯片的要求應(yīng)該是沒有盡頭的,就比如我training(訓(xùn)練)一個東西我6個月,那我競品可能說OK,那我多買幾個GPU吧?我三個月,那他三個月,我現(xiàn)在就要兩個月,那我兩個月,他就要一個月,那這個東西其實(shí)是沒有盡頭的,因?yàn)榇蠹铱傁胍臁?/p>

更快,更大,更強(qiáng)。

這對AI芯片提出了更高的要求。為了支撐起如此巨大的計算量,科技巨頭們紛紛建起了自己的數(shù)據(jù)中心Data Center(數(shù)據(jù)中心),將上萬GPU互聯(lián)互通,來支持AI大算力。

如果說AI訓(xùn)練和推理產(chǎn)生的能量是冰山一角的話,那么數(shù)據(jù)中心本身的耗電才是埋在海中的巨大冰山。

而再往深一步說,更大的能耗還來自于芯片上的電流,以及整個數(shù)據(jù)中心配套設(shè)施。

1.2 萬卡Data Center:焦耳定律和冷卻系統(tǒng)的吞電狂魔

我們都知道,AI算力靠的是GPU芯片的并行計算。在每個芯片中,如今有著以億為單位的晶體管,比如說,英偉達(dá)最近發(fā)布的Blackwell架構(gòu)GPU就擁有2080億個晶體管。這些晶體管在運(yùn)轉(zhuǎn)時,就會產(chǎn)生電流。回顧一下物理學(xué)的焦耳定律,電流通過這些晶體管產(chǎn)生的熱量跟電流的二次方成正比,跟導(dǎo)體的電阻成正比,跟通電的時間成正比(公式:Q=I2Rt)。

所以,萬億參數(shù)的AI大模型訓(xùn)練與推理,運(yùn)行在上萬GPU芯片上的千億晶體管上,所產(chǎn)生的耗電和熱量,可想而知。

除了芯片上本身的能耗之外,數(shù)據(jù)中心還涉及到冷卻系統(tǒng)的大量能耗。在數(shù)據(jù)中心的能耗上,有一個評估的衡量指標(biāo)叫“電力使用效率”(Power Usage Effectiveness),簡稱PUE,也就是消耗的所有能源除以IT設(shè)備能耗的比值。PUE這個指標(biāo)越接近1,數(shù)據(jù)中心浪費(fèi)的能源越少。

根據(jù)數(shù)據(jù)中心標(biāo)準(zhǔn)組織Uptime Institute的報告,2020年全球大型數(shù)據(jù)中心的平均PUE大約是在1.59。也就是說,數(shù)據(jù)中心的IT設(shè)備每消耗1度電,配套設(shè)備就會消耗0.59度電。其中,大部分的這些配套能耗是被用于冷卻系統(tǒng),在很多數(shù)據(jù)中心,冷卻系統(tǒng)能耗可以達(dá)到總能耗的40%。

因此,最近幾年,隨著生成式AI賽道的起飛,科技大廠們迅速圈地大興修建新AI數(shù)據(jù)中心。巨頭們并不在乎電價,而“哪里有電”,成了它們在乎的問題。

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

就是因?yàn)槲覀冊瓉碓O(shè)計Data Center(數(shù)據(jù)中心)的時候,大家其實(shí)沒有考慮數(shù)據(jù)中心需要用到這么多電,它都是考慮到我的這個帶寬什么的,它會建在離這種ISP(網(wǎng)絡(luò)業(yè)務(wù)提供商)近一點(diǎn)的地方,這樣保證它這個帶寬有優(yōu)勢。但是現(xiàn)在就發(fā)現(xiàn)我們其實(shí)是這個需要離電近一點(diǎn),不是需要離帶寬近一點(diǎn),就是如果你要建這個,就是這種accelerate compute(加速計算)的這種數(shù)據(jù)中心,像他這種32,000張GPU的話,那其實(shí)對帶寬要求遠(yuǎn)遠(yuǎn)不如對電的這個要求啊。

陳茜:所以建在電便宜的地方?

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

不是,現(xiàn)在已經(jīng)不是考慮電便宜不便宜了?現(xiàn)在就沒有電。嗯,現(xiàn)在是你要看Data Center這一層人,大家在干的事都是shopping for power(購電)。就是你哪塊開一個很大的電站,立馬就有人趕緊去把那塊地先給建個Data Center(數(shù)據(jù)中心)。

Bank of America最近發(fā)布給機(jī)構(gòu)客戶的一份研報上認(rèn)為,2023年到2028年期間,全球數(shù)據(jù)中心的能耗會以每年百分之25到33的復(fù)合增長率快速飆升。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

AI其實(shí)它對一個國家的經(jīng)濟(jì)也是非常重要的,就比如說一個很粗略的一個評估了,就是每一兆瓦的AI的這個數(shù)據(jù)中心的這個負(fù)荷,大概能夠帶來1000萬美元左右的年收入,如果是一兆瓦時的話,它的成本可能只有30美元到50美元左右。所以這是非常高的一個經(jīng)濟(jì)效益。所以這也是為什么,所有的科技公司都不管這個電價有多高,只要有電,那我就愿意去建(數(shù)據(jù)中心)。

如此有利潤潛力的高回報生意,巨頭們?nèi)绾尾谎鹤ⅲ繃H能源署(IEA)發(fā)布的一份報告顯示,2022年全球數(shù)據(jù)中心、人工智能和加密貨幣的耗電量達(dá)到460TWh,占全球能耗的近2%。IEA預(yù)測,在最糟糕的情況下,到2026年這些領(lǐng)域的用電量將達(dá)1000TWh,與整個日本的用電量相當(dāng)。

目前出現(xiàn)的問題是,用電需求快速增長,但包括美國在內(nèi)的許多地區(qū)的電網(wǎng)基建,卻已經(jīng)很多年沒有翻新過,完全跟不上AI增長的節(jié)奏,所以,“電荒”,“斷電”,”電網(wǎng)癱瘓“,這些關(guān)鍵詞,將很可能會成為接下來頻繁的新聞頭條。接下來我們說說,AI耗電將如何造成全球的電荒。

02 電荒何起:陳舊的基建與飆升的新需求?

在我們開頭提到的,YC前總監(jiān)KyleCorbitt的推特中,他說微軟工程師跟他爆料,因?yàn)樵?jīng)微軟在一個州,部署超過10萬顆H100的GPU,用來訓(xùn)練GPT-6,讓微軟電網(wǎng)超負(fù)荷而崩潰的。為什么會出現(xiàn)這個問題呢?

徐熠興(Ethan):

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

電網(wǎng)它的設(shè)計,基本上會針對你的用電負(fù)荷來進(jìn)行設(shè)計的,就是說以前的數(shù)據(jù)中心,它其實(shí)是一個穩(wěn)定的用電量,它一天24小時每刻的用電量,基本上是一個比較平穩(wěn)的狀態(tài)。但是AI的訓(xùn)練也好、推理也好,它會呈現(xiàn)出很不一樣的用電特征,在訓(xùn)練的時候,或者在應(yīng)用的時候,會出現(xiàn)非常大的擺幅,比如說可能衡幅100%的用電量,一下子降到10%的用電量,或者下一秒鐘又會再升到100%的用電量,它在幾秒鐘之內(nèi),甚至在一秒鐘之內(nèi),就會出現(xiàn)比較大的這種用電的擺伏,這樣的這個情況,會給電網(wǎng)再帶來不愿意接受的使用震蕩,會對電網(wǎng)的穩(wěn)定性會造成一定的影響。

其實(shí)數(shù)據(jù)中心一直很耗電,但隨著AI爆發(fā),各大巨頭都開展了部署AI的“軍備競賽”,因此在大規(guī)模新建數(shù)據(jù)中心,但數(shù)據(jù)中心的負(fù)荷太重,發(fā)電系統(tǒng)無法提供這么高的功率,就算添置發(fā)電設(shè)施,老舊的電力傳輸設(shè)施也難以承擔(dān)如此負(fù)荷,很容易超出電網(wǎng)原本的承受上限,加上歐美地區(qū)的用電量在過去相當(dāng)長時間都保持平穩(wěn),這意味著電網(wǎng)基建已經(jīng)接近20年時間沒有更新。

在過去20年里,雖然美國的經(jīng)濟(jì)不斷提升,但由于“去工業(yè)化”的理念,整體的經(jīng)濟(jì)增長與用電量并不相關(guān),每年的用電增長率只有0.5%,這和亞洲的一些發(fā)展中國家情況大不相同。美國的工程師在這20年里,都沒有遇到過如此大的電力增長需求,從而導(dǎo)致整個電網(wǎng)規(guī)劃時,對這種情況沒有預(yù)案,同時由于建設(shè)能力較為薄弱,短期內(nèi)無法跟上發(fā)展需求,所以在未來的三到五年內(nèi),可能美國很多地區(qū)都將出現(xiàn)用電緊張。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

對于政策的制定者來說也是同樣巨大的挑戰(zhàn)。因?yàn)樵诿绹阋ㄔO(shè)電網(wǎng),需要建設(shè)電站,需要建設(shè)傳輸線,而這些可能都會涉及到千千萬萬的居民。因?yàn)槊绹暮芏嗤恋囟际撬接械?,也就意味著如果你要建設(shè)電網(wǎng),升級電網(wǎng)的話,你的傳輸線肯定要經(jīng)過很多這個私營的這個土地主,那怎么能夠說服他們要允許建設(shè)電網(wǎng),允許建設(shè)傳輸線,這都將是一個非常大的挑戰(zhàn)。

所以,《紐約客》最近的一篇文章中,更是將AI的能源需求用“Obscene”(下流)來形容,用詞非常不客氣。但巨頭們并沒有因?yàn)殡娋W(wǎng)的挑戰(zhàn)而停下腳步,反觀微軟和OpenAI甚至投入1000億美元,計劃打造一個有史以來最大的AI超級計算機(jī)項(xiàng)目:Stargate。

03 千億美元、吉瓦量級的Stargate

我們將硅谷的幾大巨頭盤點(diǎn)下,Meta目前有65萬張H100,今年計劃花8億美元,做一個AI數(shù)據(jù)中心,亞馬遜則打算在數(shù)據(jù)中心上投資6.5億美元,谷歌更是大手筆,投資10億美元建數(shù)據(jù)中心,但這些在微軟面前,不過是一點(diǎn)零頭。

根據(jù)美國科技媒體The Information報道,OpenAI聯(lián)手微軟計劃花費(fèi)1000億美元打造一臺AI超級計算機(jī),名為“星際之門”Stargate,這個投資規(guī)模比目前運(yùn)營的其他數(shù)據(jù)中心,高出了100倍。要知道,OpenAI的投資也才130億美元,這些錢足夠打造8個OpenAI了。

星際之門這個項(xiàng)目預(yù)計在2028年完成,采購的芯片不再是H100,而是數(shù)百萬個英偉達(dá)最新的B200芯片,最重要的是,這個項(xiàng)目的電力需求將會達(dá)到數(shù)吉瓦的量級。

目前雖然星際之門的項(xiàng)目還在較早的規(guī)劃階段且未獲正式批準(zhǔn),可能還會有所變動,但這個計劃的出臺告訴了我們很明確的信號:誰掌握了算力,誰就掌握了未來。

而如此龐大的電力需求,將會對美國的電力系統(tǒng)造成不可估量的缺口,可能你想問:微軟為什么不考慮到其他國家建設(shè)星際之門,以減輕美國的電力負(fù)擔(dān)呢?

項(xiàng)江

瀚海聚能CEO

數(shù)據(jù)它現(xiàn)在是一個資產(chǎn),而且是一個甚至到了戰(zhàn)略資產(chǎn)這樣一個地位。而且對于AI下一步的發(fā)展的話,首先這現(xiàn)在是芯片短缺,再是數(shù)據(jù)短缺,再是能源短缺,這個重要性已經(jīng)都凸顯在這兒了,數(shù)據(jù)實(shí)際上已經(jīng)現(xiàn)在出現(xiàn)了短缺的問題了。你說把數(shù)據(jù)中心建在別的國家,然后再去訓(xùn)練,甚至利用當(dāng)?shù)貒业臄?shù)據(jù),我覺得這是不可想象的事情。

這么聊下來,美國的電荒危機(jī)將繼續(xù)擴(kuò)大。那么要保證像Stargate這種量級的項(xiàng)目,能耗的問題,到底該如何解決呢?

從The Information爆料出的Stargate內(nèi)部討論來看,更高效的數(shù)據(jù)中心優(yōu)化,以及核能等替代能源,都是急需技術(shù)突破的方向。我們先來聊聊芯片和數(shù)據(jù)中心的優(yōu)化。

04 數(shù)據(jù)中心優(yōu)化:芯片效率及液冷技術(shù)

我們在前面講到數(shù)據(jù)中心的電力使用效率PUE,如果PUE越接近1,能耗效率就越高對吧。那么,如何優(yōu)化數(shù)據(jù)中心的PUE呢?誒,老黃給出了一些可行性答案。

在2024年的英偉達(dá)大會上,黃仁勛說,新一代Blackwell GB200的能耗是前一代Hopper架構(gòu)的四分之一。英偉達(dá)的BlackwellGB200是如何實(shí)現(xiàn)能耗優(yōu)化的呢?我們來通過英偉達(dá)的動畫演示仔細(xì)解讀一下。

這是Blackwell的GPU核心,在動畫中,兩個核心拼接在一起,組成了B100的核心。

這六個方塊,就是核心旁邊的HBM(High Bandwidth Memory高帶寬內(nèi)存)。旁邊是8個內(nèi)存卡,這就是一個GPU。這六個方塊,就是核心旁邊的HBM(High Bandwidth Memory高帶寬內(nèi)存)。旁邊是8個內(nèi)存卡,這就是一個GPU。

這是加了他們的Grace CPU,CPU是主要大腦,帶動了兩塊GPU。這個就叫GB200(3:55)那個G就是它那個 Grace CPU。

兩塊GB200裝入機(jī)柜后,就組成了一個NODE,計算節(jié)點(diǎn)。這里加入的卡是Infiniband,主要功能是讓各計算單元之間高速通信。

除了Infiniband,NODE還加入了DPU(Data Processing Unit),用來處理數(shù)據(jù),減輕CPU負(fù)擔(dān)。

英偉達(dá)會將18個NODE組合。這是英偉達(dá)的NVLink Switch芯片,大家可以把這層理解為交換機(jī),用于連通NODE。

并加上局域網(wǎng)加速卡,組成了整個機(jī)組。再通過不斷增加機(jī)組,最后成為了數(shù)據(jù)中心。

解釋完GTC上的這段動畫,相信大家也理解了Blackwell和B200是什么。在GTC上,老黃介紹過Blackwell GPU擁有2080億個晶體管,用于AI訓(xùn)練時,速度將比H100快1倍,而推理速度則快5倍。最重要的是,對于相同的AI訓(xùn)練量,GB200的功耗是之前的四分之一。

這么看來,從一定程度上,隨著B200的問世,AI數(shù)據(jù)中心的耗電問題將有所緩解,畢竟英偉達(dá)占據(jù)了95%的AI市場。

在能耗上,還有一點(diǎn)很重要。讓以上英偉達(dá)數(shù)據(jù)中心這一切能順利運(yùn)轉(zhuǎn)的,是即將成為行業(yè)標(biāo)配的“液體冷卻技術(shù)”。Bank of America在研報上解釋,接下來,隨著數(shù)據(jù)中心功率密度的提高,傳統(tǒng)的風(fēng)冷系統(tǒng)方法可能不再適用,需要采用液體冷卻解決方案,這會幫助提高數(shù)據(jù)中心的效能。

我們之前在英偉達(dá)GTC展會上采訪了Supermicro的人,對方也說了同樣的話:在英偉達(dá)Blackwell架構(gòu)之后的AI數(shù)據(jù)中心都會轉(zhuǎn)向液體冷卻方案。

液冷技術(shù)其實(shí)已經(jīng)發(fā)展了相當(dāng)?shù)臅r間了,目前分為直抵芯片液體冷卻,和浸入式液體冷卻這兩種技術(shù)方向。中間的技術(shù)細(xì)節(jié)先不說了,總而言之,液冷不僅創(chuàng)造了降低數(shù)據(jù)中心能耗的機(jī)會,還能將電力使用效率(PUE)降至接近1的理想狀態(tài)。

但注意,我這里說的是“理想狀態(tài)”。那現(xiàn)實(shí)呢?

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

就是這個B100比以前的H100會tricky(刁鉆)很多,因?yàn)檫@個liquid cooling(液體冷卻)現(xiàn)在市場上是沒有標(biāo)準(zhǔn),很多這種數(shù)據(jù)中心或者這種擔(dān)憂,他其實(shí)不敢私自去碰這個liquid cooling。因?yàn)橛ミ_(dá)它有要求,因?yàn)橛ミ_(dá)它交貨的時候,它里頭是不帶liquid cooling的,所以你要裝liquid cooling,你其實(shí)把它自帶那套東西給拆了。那你裝了以后如果出問題,英偉達(dá)不保修了。所以很多人他是不敢亂碰這個liquid cooling。

首先,最大的問題是產(chǎn)能,即使Blackwell出來了,但H100依然處于供不應(yīng)求的情況,想把H100全換成B100,不說有沒有這么多卡,在整個行業(yè)缺算力時,企業(yè)的選擇只有增配,而非替換。

其次,就算想用B100換成H100,技術(shù)上也存在問題。數(shù)據(jù)中心設(shè)計時,整個配套設(shè)備如變壓器、導(dǎo)線、散熱,都要與芯片匹配,不論是B100、B200還是GB200,其配套方案都與上一代不同,所以現(xiàn)有的數(shù)據(jù)中心將難以直接更換。

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

現(xiàn)在還沒有任何人在英偉達(dá)之外成功的部署了一個B100,所以要怎么部署大家還不確定。因?yàn)樗_實(shí)跟H100不太一樣。視頻里放的那個,把那個扣打開,H100拿出來,B100插進(jìn)去,那個是非常理想化的,其實(shí)你要改很多東西。B100可能還稍微好一些,像他說那個B200大家要都用上,我覺得時間就長了。

因?yàn)槟莻€機(jī)柜可能要重新改,他耗電太大啊。你要重新建數(shù)據(jù)中心,要不然就是因?yàn)槟隳莻€cooling(冷卻)的那個功率不夠,你可能要把你的這數(shù)據(jù)中心重新擺排?;蛘吣銠C(jī)柜離太近太熱了,然后你的那個冷卻達(dá)不到標(biāo)的話,你想要把這些機(jī)柜全都離遠(yuǎn)一點(diǎn),這個非常費(fèi)事。

最后,由于競爭存在,資本對算力的需求,將是永無止境的。也就是說,芯片和數(shù)據(jù)中心在能耗效率上的提高比起市場上的整體需求上漲,依然無法改善算力短缺,總能耗依然在快速飆升。

在PC快速發(fā)展的時代,出現(xiàn)過安迪-比爾定理,不論英特爾如何提升芯片性能,這部分很快會被微軟的軟件需求給吃掉。到了如今的AI時代,類似的定律可能會再次上演。

徐熠興(Ethan):

我覺得在GPU上有可能也會出現(xiàn)類似的情況,就是它的能耗降低了很多,很快,但是因?yàn)槟芎牡慕档?,可能會?dǎo)致更多的人,在更多的應(yīng)用,會需要更多的GPU,最后還是會導(dǎo)致能耗的總體能耗的增加。

那么,有沒有更強(qiáng)大的幫我們解決能耗問題的解決方案呢?

05 能源終極方案:核聚變?

遷往它國不行,降低能耗不夠,AI發(fā)展也不能停,在如此大的電力缺口面前,巨頭們該何去何從呢?

徐熠興(Ethan)提到了一個思路,在短期內(nèi),分布式儲能會是比較重要的方案。例如發(fā)展光伏充電,讓每家每戶都裝上太陽能板,以此來減輕家庭用電對電網(wǎng)的依賴,將更多電能用于AI產(chǎn)業(yè)。畢竟我們前面也提到過,AI對國家經(jīng)濟(jì)非常重要,所以政府是有動力去推進(jìn)這項(xiàng)計劃的。

同時,由于發(fā)電廠是持續(xù)發(fā)電,但總有一些時間電網(wǎng)負(fù)荷量低,這時沒用上的電,也就白白流失了,因此建設(shè)儲能設(shè)備也能讓發(fā)電廠的電,得到充分利用。目前主流的儲能設(shè)備是電池,有些地方則會用到抽水蓄電,也就是在用電低谷時,將水抽到地勢高的地方,等高峰時再釋放,通過水的流勢來發(fā)電。

然而,分布式儲能和新能源供電只能短時間內(nèi)提供電力上的幫助,目前看來并不能作為長期AI發(fā)展中的可靠能源支持,無法解決長期需求。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

之所以會出現(xiàn)這樣的情況,最主要的一個原因就是,我們現(xiàn)在依靠的很多清潔能源,比如說風(fēng)能和太陽能,他們都不是完全可控的,有風(fēng)、有太陽的時候你有能源,沒有風(fēng)和太陽的時候你就沒有這些能源了。

為此,像微軟這樣的巨頭,正積極地和美國各電力公司合作,甚至Sam Altman直接投資了一家名為HelionEnergy的能源公司。

Lex Fridman:你如何解決能源問題?核聚變?

Sam Altman:那是我認(rèn)可的

Lex Fridman:誰來解決這個問題?

Sam Altman:我認(rèn)為Helion做得最好

沒錯,核能,這是巨頭們所堅信的方向。核聚變是將氘、氚通過一定手段,使其成為等離子態(tài),發(fā)生核聚變后產(chǎn)生能量,一旦外力停止,等離子態(tài)會消失,反應(yīng)結(jié)束,相對而言更可控、更安全。

Helion走的就是核聚變的道路,他們還和微軟簽訂了對賭協(xié)議,承諾在2028年之前開始通過核聚變發(fā)電,并在一年之后以0.01美元每千瓦時的價格為微軟提供目標(biāo)為至少50兆瓦的發(fā)電量,否則將支付罰款。這個激進(jìn)的“對賭協(xié)議”被認(rèn)為是核聚變發(fā)電領(lǐng)域的首個商業(yè)協(xié)議。

項(xiàng)江

瀚海聚能CEO

它的底氣就是在于它現(xiàn)在采用的技術(shù)路線,建設(shè)的裝置的成本非常低。如果用托卡馬克一個裝置要上百億、四五百億來建造的話,那么它的技術(shù)迭代周期就會達(dá)到10年以上。

項(xiàng)江

瀚海聚能CEO

它采用的是,直線型場反位形的這樣一個技術(shù)路線,這樣大幅降低了它的資金門檻。

那目前核聚變又發(fā)展到什么水平了呢?

項(xiàng)江

瀚海聚能CEO

其實(shí)說現(xiàn)在的技術(shù)發(fā)展水平來講的話,現(xiàn)在核聚變是完全可以用于發(fā)電的,只不過我們目前還在處于做實(shí)驗(yàn)的階段,我們現(xiàn)在用的是氘-氘進(jìn)行反應(yīng)做實(shí)驗(yàn),要用到核電站的這樣的發(fā)電效率的話,至少用氘-氚聚變來發(fā)電,而且它現(xiàn)在叫有價無市,每克氚大概是在兩三百萬這樣人民幣的這樣一個價格。

想用核聚變來發(fā)電,還得解決熱傳導(dǎo)、渦輪電機(jī)、供電并網(wǎng)等設(shè)施,這其中的投資又是幾十億,所以,業(yè)內(nèi)很多聲音其實(shí)對Helion公司在2029年開始給微軟用核聚變供電保持非常懷疑的態(tài)度。但其實(shí),微軟自己也對核聚變技術(shù)的到來也并不盲目樂觀。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

其實(shí)微軟投資這個公司或者簽這個合同的主要目的,是在于能夠前期就給他們需求側(cè)的一個強(qiáng)烈的信號,通過這樣的方式去支持這樣的創(chuàng)新公司,去幫助他們,去減少他們面對的風(fēng)險。

微軟和幾個大公司,包括亞馬遜,包括谷歌等等,其實(shí)都一直在用自己的投資部門,去投資不同的新科技,這其中就有核能,包括核聚變。他們的希望也是通過投資這些技術(shù),讓這些技術(shù)公司能夠發(fā)展的更好,能夠用更快的速度、更低的成本實(shí)現(xiàn)規(guī)模化,能夠把這個核聚變盡可能實(shí)現(xiàn)。

雖然核聚變何時能到來還是一個巨大的未知數(shù),但顯然,核能將是接下來巨頭們瞄準(zhǔn)的市場。近來,亞馬遜購買了一個擁有核能供應(yīng)的賓夕法尼亞州數(shù)據(jù)中心地點(diǎn)。根據(jù)兩位參與談判的人士透露,微軟也曾討論競標(biāo)同樣的地點(diǎn)。所以,接下來,有核能供應(yīng)的數(shù)據(jù)中心選址,可能將是下一個科技巨頭們的兵家必爭之地。

文章的最后,我們再來聊聊一個更現(xiàn)實(shí)的問題:目前硅谷科技巨頭們開啟了搶電大戰(zhàn),但他們承諾的碳中和目標(biāo)怎么辦?

06 更貴、更難的碳中和目標(biāo)

還有個很重要的問題,就是環(huán)保,眾所周知,現(xiàn)在全球推進(jìn)碳中和目標(biāo),但隨著AI巨大的耗電需求,碳中和的實(shí)現(xiàn)難度和成本將可能翻倍。

當(dāng)前生成式AI的軍備競賽無疑是打亂了一眾科技巨頭的碳排放計劃,因?yàn)闈M足AI Scaling law(規(guī)模法則)的發(fā)展實(shí)在太耗能源了,可以說是非常高碳的經(jīng)濟(jì)活動。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

在更早的時候就已經(jīng)開始開啟了能源轉(zhuǎn)型的道路,所以像很多的大的公司,包括微軟、谷歌、亞馬遜、Meta等等,他們在AI出現(xiàn)之前就已經(jīng)向公眾作出了這個承諾,當(dāng)時是沒有考慮到AI的。

微軟承諾2030年實(shí)現(xiàn)100%沒有任何碳排放的清潔能源使用、實(shí)現(xiàn)碳中和,亞馬遜承諾2040年之前實(shí)現(xiàn)碳中和,谷歌和Meta承諾2030年之前實(shí)現(xiàn)整個運(yùn)營和價值鏈上的碳中和,但因?yàn)檫@輪AI的出現(xiàn),這些承諾似乎更難以達(dá)到了。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

此前這些公司在做這些承諾的時候,他們的目標(biāo)就已經(jīng)設(shè)得足夠高、足夠難了,在沒有AI之前,要實(shí)現(xiàn)能源轉(zhuǎn)型的成本就很高,如果加上AI之后,成本有可能會翻倍。當(dāng)能源轉(zhuǎn)型進(jìn)行到最后的那5%、10%的時候,想再實(shí)現(xiàn)95%甚至99%的清潔能源的時候,這個成本就幾乎是指數(shù)性的增長。

除了電能之外,水能源其實(shí)也遭遇著類似的挑戰(zhàn)。近年來,在AI大模型領(lǐng)域領(lǐng)先的科技公司們,也都面臨水消耗大幅增長的局面,數(shù)據(jù)顯示,人工智能聊天機(jī)器人ChatGPT每發(fā)出10到50次對話提示,就會“吞下”500毫升水。

2023年6月,微軟公司發(fā)布了2022年度環(huán)境可持續(xù)發(fā)展報告,其中用水一項(xiàng),有超過34%的顯著增長。

谷歌公司也類似,甚至引發(fā)了2023年年中,在烏拉圭首都的民眾抗議,這個南美國家遭受74年來最嚴(yán)重的干旱之際,試圖阻止谷歌在當(dāng)?shù)亟ㄔO(shè)數(shù)據(jù)中心的計劃。

而我們在文章中提到的液態(tài)冷卻技術(shù),和系統(tǒng)的進(jìn)一步普及和運(yùn)用,也將繼續(xù)對水資源有著持續(xù)的需求。

在技術(shù)發(fā)展和能源消耗之間的選擇,非常兩難。一面需要穩(wěn)定、大量的電力來打AI技術(shù)和商業(yè)之戰(zhàn),一面需要向社會履行環(huán)保承諾來打碳中和之戰(zhàn),無論是哪一場戰(zhàn)役,都是昂貴且困難的。業(yè)內(nèi)流行著一句話:AGI的盡頭是能源。如果人類到達(dá)AGI之前可控核聚變技術(shù)無法實(shí)現(xiàn),那么現(xiàn)有的能源方案能帶我們走多遠(yuǎn)?這是一個巨大的不確定性。

同時,在科技公司們計算AI成本時,我們也不要忘了社會成本。政府間氣候變化專門委員會(IPCC)的報告指出,如果我們不能在本世紀(jì)內(nèi)有效控制全球溫升,氣候變化越過臨界點(diǎn)將會導(dǎo)致極端天氣事件更加頻繁。Climate Policy Initiative的研究報告預(yù)計,氣候風(fēng)險帶來的累計損失到2100年可能高達(dá)數(shù)百萬億美元。

如果AI的發(fā)展將推高碳排放、推后碳中和且導(dǎo)致更多氣候損失,那么這也要算入AI成本中。屆時,人類對AI技術(shù)發(fā)展的這筆經(jīng)濟(jì)帳,還能否算得過來呢?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

搶電、圈地、對賭,深聊科技巨頭的千億美元AI能源大戰(zhàn)

各大巨頭因AI軍備競賽,紛紛搶建數(shù)據(jù)中心,從搶芯片變成了搶能源。

圖片來源:界面新聞匡達(dá)

文|硅谷101

聽說,OpenAI訓(xùn)練GPT-6的時候,把微軟電網(wǎng)給搞崩了?小伙伴們,你們有沒有想過,生成式AI軍備競賽持續(xù)之際,AI會有多耗電嗎?

OpenAI訓(xùn)練GPT-3大概消耗了1300兆瓦的電力,如果將這些電用來看網(wǎng)絡(luò)流媒體視頻,可以播放1625000小時,也就是185.5年。

我們再換一個方式呈現(xiàn),研究人員發(fā)現(xiàn),將大模型用于AI文生圖,平均下來每生成一張圖片的耗電量,就能把一個手機(jī)充滿。

再來一個宏觀點(diǎn)的例子,我們做這期視頻的2024年,全美AI數(shù)據(jù)中心的耗電量將占據(jù)全美總用電量的2.5%。

但這,只是開始。硅谷的科技的大廠們:英偉達(dá)、谷歌、微軟、亞馬遜、Meta、特斯拉、甲骨文等一眾巨頭開始搭建大型數(shù)據(jù)中心之際,OpenAI直接聯(lián)手微軟打造了耗資1000億美元的數(shù)據(jù)中心“星際之門”(Stargate)。

隨著上萬張GPU顯卡集群成為訓(xùn)練生成式AI的標(biāo)配,硅谷開始卷多模態(tài)大模型,Scaling law(規(guī)模法則)依然是萬能解藥,可想而知,耗電量會指數(shù)級上漲。

歡迎大家來到硅谷101,這期內(nèi)容我們就來聊聊,AI發(fā)展將會帶來的能源挑戰(zhàn)。首先我們來回答一個問題:為什么訓(xùn)練大模型會如此耗電。

01 為何生成式AI如此耗電?

1961年,為IBM效力的物理學(xué)家Rolf Landauer提出了Landauer's Principle(蘭道爾原理)。

指出計算機(jī)中存儲的信息發(fā)生不可逆的變化時,系統(tǒng)的熵會增加,且伴隨著能量的耗散。簡單來說,處理信息是有能量成本的。

1.1 AI訓(xùn)練與推理:處理信息能量成本

自從生成式AI確立使用Transformer架構(gòu)并遵循“Scaling law”用巨量參數(shù)以來,AI大模型和“大量計算”就綁定在了一起。這就意味著,大模型運(yùn)作中的“訓(xùn)練”(Training)和“推理”(Inference)都會涉及大量計算和信息處理,或者說,巨大的能量成本。

前者,在訓(xùn)練階段,AI大模型需要收集和預(yù)處理大量的文本數(shù)據(jù),然后初始化參數(shù),處理數(shù)據(jù),生成輸出,調(diào)整,優(yōu)化等等,而且隨著模型的迭代,需要處理的參數(shù)是指數(shù)級別的增長:GPT3是1750億個參數(shù),GPT4是1.8萬億個,GPT5可能會突破10萬億參數(shù),而傳說正在訓(xùn)練的GPT6則可能數(shù)百萬億甚至千萬億參數(shù)的量級。

而硅谷頂級孵化器YC的前總監(jiān)Kyle Corbitt在他的推特上爆料說,他在跟一個微軟工程師聊天時,對方告訴他GPT-6的訓(xùn)練曾經(jīng)讓微軟電網(wǎng)超負(fù)荷崩潰,所以無法在同一個州部署超過10萬顆H100的GPU。

電網(wǎng)為什么會崩潰我們稍后會解釋,但這里想跟大家說的是,可見訓(xùn)練GPT-6的耗電有多么可怕。而在訓(xùn)練完畢之后,“推理”同樣需要非常大的算力和電力支持。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

我的理解是現(xiàn)在我們還處在就是AI訓(xùn)練大模型的一個階段,這些模型訓(xùn)練出來之后,它之后的應(yīng)用,它的推理應(yīng)用等等,那才是最大消耗能源的地方,那用電量的話可能要比你訓(xùn)練那幾個月AI模型的用電量要大的多的。

我們知道,Transformer是自回歸模型,這意味著推理過程中涉及多輪重復(fù)計算;而在之后的生成階段,每生成一個token,都需要與顯存進(jìn)行數(shù)據(jù)交互。

我們在開頭說了,一張AI文生圖的平均耗電量是能把手機(jī)充滿電的電量。而聊天應(yīng)用ChatGPT每天響應(yīng)約2億個需求,消耗超過50萬度電力,相當(dāng)于1.7萬個美國家庭平均一天的用電量。

所以,無論是訓(xùn)練還是推理階段,模型的參數(shù)量越大,需要處理的數(shù)據(jù)越多,所需的計算量就越大,消耗的能量也就越大,釋放的熱量也越多。而反過來,這又需要更強(qiáng)大的芯片,這樣的追求是無止盡的。

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

我個人感覺他這對這芯片的要求應(yīng)該是沒有盡頭的,就比如我training(訓(xùn)練)一個東西我6個月,那我競品可能說OK,那我多買幾個GPU吧?我三個月,那他三個月,我現(xiàn)在就要兩個月,那我兩個月,他就要一個月,那這個東西其實(shí)是沒有盡頭的,因?yàn)榇蠹铱傁胍臁?/p>

更快,更大,更強(qiáng)。

這對AI芯片提出了更高的要求。為了支撐起如此巨大的計算量,科技巨頭們紛紛建起了自己的數(shù)據(jù)中心Data Center(數(shù)據(jù)中心),將上萬GPU互聯(lián)互通,來支持AI大算力。

如果說AI訓(xùn)練和推理產(chǎn)生的能量是冰山一角的話,那么數(shù)據(jù)中心本身的耗電才是埋在海中的巨大冰山。

而再往深一步說,更大的能耗還來自于芯片上的電流,以及整個數(shù)據(jù)中心配套設(shè)施。

1.2 萬卡Data Center:焦耳定律和冷卻系統(tǒng)的吞電狂魔

我們都知道,AI算力靠的是GPU芯片的并行計算。在每個芯片中,如今有著以億為單位的晶體管,比如說,英偉達(dá)最近發(fā)布的Blackwell架構(gòu)GPU就擁有2080億個晶體管。這些晶體管在運(yùn)轉(zhuǎn)時,就會產(chǎn)生電流?;仡櫼幌挛锢韺W(xué)的焦耳定律,電流通過這些晶體管產(chǎn)生的熱量跟電流的二次方成正比,跟導(dǎo)體的電阻成正比,跟通電的時間成正比(公式:Q=I2Rt)。

所以,萬億參數(shù)的AI大模型訓(xùn)練與推理,運(yùn)行在上萬GPU芯片上的千億晶體管上,所產(chǎn)生的耗電和熱量,可想而知。

除了芯片上本身的能耗之外,數(shù)據(jù)中心還涉及到冷卻系統(tǒng)的大量能耗。在數(shù)據(jù)中心的能耗上,有一個評估的衡量指標(biāo)叫“電力使用效率”(Power Usage Effectiveness),簡稱PUE,也就是消耗的所有能源除以IT設(shè)備能耗的比值。PUE這個指標(biāo)越接近1,數(shù)據(jù)中心浪費(fèi)的能源越少。

根據(jù)數(shù)據(jù)中心標(biāo)準(zhǔn)組織Uptime Institute的報告,2020年全球大型數(shù)據(jù)中心的平均PUE大約是在1.59。也就是說,數(shù)據(jù)中心的IT設(shè)備每消耗1度電,配套設(shè)備就會消耗0.59度電。其中,大部分的這些配套能耗是被用于冷卻系統(tǒng),在很多數(shù)據(jù)中心,冷卻系統(tǒng)能耗可以達(dá)到總能耗的40%。

因此,最近幾年,隨著生成式AI賽道的起飛,科技大廠們迅速圈地大興修建新AI數(shù)據(jù)中心。巨頭們并不在乎電價,而“哪里有電”,成了它們在乎的問題。

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

就是因?yàn)槲覀冊瓉碓O(shè)計Data Center(數(shù)據(jù)中心)的時候,大家其實(shí)沒有考慮數(shù)據(jù)中心需要用到這么多電,它都是考慮到我的這個帶寬什么的,它會建在離這種ISP(網(wǎng)絡(luò)業(yè)務(wù)提供商)近一點(diǎn)的地方,這樣保證它這個帶寬有優(yōu)勢。但是現(xiàn)在就發(fā)現(xiàn)我們其實(shí)是這個需要離電近一點(diǎn),不是需要離帶寬近一點(diǎn),就是如果你要建這個,就是這種accelerate compute(加速計算)的這種數(shù)據(jù)中心,像他這種32,000張GPU的話,那其實(shí)對帶寬要求遠(yuǎn)遠(yuǎn)不如對電的這個要求啊。

陳茜:所以建在電便宜的地方?

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

不是,現(xiàn)在已經(jīng)不是考慮電便宜不便宜了?現(xiàn)在就沒有電。嗯,現(xiàn)在是你要看Data Center這一層人,大家在干的事都是shopping for power(購電)。就是你哪塊開一個很大的電站,立馬就有人趕緊去把那塊地先給建個Data Center(數(shù)據(jù)中心)。

Bank of America最近發(fā)布給機(jī)構(gòu)客戶的一份研報上認(rèn)為,2023年到2028年期間,全球數(shù)據(jù)中心的能耗會以每年百分之25到33的復(fù)合增長率快速飆升。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

AI其實(shí)它對一個國家的經(jīng)濟(jì)也是非常重要的,就比如說一個很粗略的一個評估了,就是每一兆瓦的AI的這個數(shù)據(jù)中心的這個負(fù)荷,大概能夠帶來1000萬美元左右的年收入,如果是一兆瓦時的話,它的成本可能只有30美元到50美元左右。所以這是非常高的一個經(jīng)濟(jì)效益。所以這也是為什么,所有的科技公司都不管這個電價有多高,只要有電,那我就愿意去建(數(shù)據(jù)中心)。

如此有利潤潛力的高回報生意,巨頭們?nèi)绾尾谎鹤??國際能源署(IEA)發(fā)布的一份報告顯示,2022年全球數(shù)據(jù)中心、人工智能和加密貨幣的耗電量達(dá)到460TWh,占全球能耗的近2%。IEA預(yù)測,在最糟糕的情況下,到2026年這些領(lǐng)域的用電量將達(dá)1000TWh,與整個日本的用電量相當(dāng)。

目前出現(xiàn)的問題是,用電需求快速增長,但包括美國在內(nèi)的許多地區(qū)的電網(wǎng)基建,卻已經(jīng)很多年沒有翻新過,完全跟不上AI增長的節(jié)奏,所以,“電荒”,“斷電”,”電網(wǎng)癱瘓“,這些關(guān)鍵詞,將很可能會成為接下來頻繁的新聞頭條。接下來我們說說,AI耗電將如何造成全球的電荒。

02 電荒何起:陳舊的基建與飆升的新需求?

在我們開頭提到的,YC前總監(jiān)KyleCorbitt的推特中,他說微軟工程師跟他爆料,因?yàn)樵?jīng)微軟在一個州,部署超過10萬顆H100的GPU,用來訓(xùn)練GPT-6,讓微軟電網(wǎng)超負(fù)荷而崩潰的。為什么會出現(xiàn)這個問題呢?

徐熠興(Ethan):

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

電網(wǎng)它的設(shè)計,基本上會針對你的用電負(fù)荷來進(jìn)行設(shè)計的,就是說以前的數(shù)據(jù)中心,它其實(shí)是一個穩(wěn)定的用電量,它一天24小時每刻的用電量,基本上是一個比較平穩(wěn)的狀態(tài)。但是AI的訓(xùn)練也好、推理也好,它會呈現(xiàn)出很不一樣的用電特征,在訓(xùn)練的時候,或者在應(yīng)用的時候,會出現(xiàn)非常大的擺幅,比如說可能衡幅100%的用電量,一下子降到10%的用電量,或者下一秒鐘又會再升到100%的用電量,它在幾秒鐘之內(nèi),甚至在一秒鐘之內(nèi),就會出現(xiàn)比較大的這種用電的擺伏,這樣的這個情況,會給電網(wǎng)再帶來不愿意接受的使用震蕩,會對電網(wǎng)的穩(wěn)定性會造成一定的影響。

其實(shí)數(shù)據(jù)中心一直很耗電,但隨著AI爆發(fā),各大巨頭都開展了部署AI的“軍備競賽”,因此在大規(guī)模新建數(shù)據(jù)中心,但數(shù)據(jù)中心的負(fù)荷太重,發(fā)電系統(tǒng)無法提供這么高的功率,就算添置發(fā)電設(shè)施,老舊的電力傳輸設(shè)施也難以承擔(dān)如此負(fù)荷,很容易超出電網(wǎng)原本的承受上限,加上歐美地區(qū)的用電量在過去相當(dāng)長時間都保持平穩(wěn),這意味著電網(wǎng)基建已經(jīng)接近20年時間沒有更新。

在過去20年里,雖然美國的經(jīng)濟(jì)不斷提升,但由于“去工業(yè)化”的理念,整體的經(jīng)濟(jì)增長與用電量并不相關(guān),每年的用電增長率只有0.5%,這和亞洲的一些發(fā)展中國家情況大不相同。美國的工程師在這20年里,都沒有遇到過如此大的電力增長需求,從而導(dǎo)致整個電網(wǎng)規(guī)劃時,對這種情況沒有預(yù)案,同時由于建設(shè)能力較為薄弱,短期內(nèi)無法跟上發(fā)展需求,所以在未來的三到五年內(nèi),可能美國很多地區(qū)都將出現(xiàn)用電緊張。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

對于政策的制定者來說也是同樣巨大的挑戰(zhàn)。因?yàn)樵诿绹阋ㄔO(shè)電網(wǎng),需要建設(shè)電站,需要建設(shè)傳輸線,而這些可能都會涉及到千千萬萬的居民。因?yàn)槊绹暮芏嗤恋囟际撬接械?,也就意味著如果你要建設(shè)電網(wǎng),升級電網(wǎng)的話,你的傳輸線肯定要經(jīng)過很多這個私營的這個土地主,那怎么能夠說服他們要允許建設(shè)電網(wǎng),允許建設(shè)傳輸線,這都將是一個非常大的挑戰(zhàn)。

所以,《紐約客》最近的一篇文章中,更是將AI的能源需求用“Obscene”(下流)來形容,用詞非常不客氣。但巨頭們并沒有因?yàn)殡娋W(wǎng)的挑戰(zhàn)而停下腳步,反觀微軟和OpenAI甚至投入1000億美元,計劃打造一個有史以來最大的AI超級計算機(jī)項(xiàng)目:Stargate。

03 千億美元、吉瓦量級的Stargate

我們將硅谷的幾大巨頭盤點(diǎn)下,Meta目前有65萬張H100,今年計劃花8億美元,做一個AI數(shù)據(jù)中心,亞馬遜則打算在數(shù)據(jù)中心上投資6.5億美元,谷歌更是大手筆,投資10億美元建數(shù)據(jù)中心,但這些在微軟面前,不過是一點(diǎn)零頭。

根據(jù)美國科技媒體The Information報道,OpenAI聯(lián)手微軟計劃花費(fèi)1000億美元打造一臺AI超級計算機(jī),名為“星際之門”Stargate,這個投資規(guī)模比目前運(yùn)營的其他數(shù)據(jù)中心,高出了100倍。要知道,OpenAI的投資也才130億美元,這些錢足夠打造8個OpenAI了。

星際之門這個項(xiàng)目預(yù)計在2028年完成,采購的芯片不再是H100,而是數(shù)百萬個英偉達(dá)最新的B200芯片,最重要的是,這個項(xiàng)目的電力需求將會達(dá)到數(shù)吉瓦的量級。

目前雖然星際之門的項(xiàng)目還在較早的規(guī)劃階段且未獲正式批準(zhǔn),可能還會有所變動,但這個計劃的出臺告訴了我們很明確的信號:誰掌握了算力,誰就掌握了未來。

而如此龐大的電力需求,將會對美國的電力系統(tǒng)造成不可估量的缺口,可能你想問:微軟為什么不考慮到其他國家建設(shè)星際之門,以減輕美國的電力負(fù)擔(dān)呢?

項(xiàng)江

瀚海聚能CEO

數(shù)據(jù)它現(xiàn)在是一個資產(chǎn),而且是一個甚至到了戰(zhàn)略資產(chǎn)這樣一個地位。而且對于AI下一步的發(fā)展的話,首先這現(xiàn)在是芯片短缺,再是數(shù)據(jù)短缺,再是能源短缺,這個重要性已經(jīng)都凸顯在這兒了,數(shù)據(jù)實(shí)際上已經(jīng)現(xiàn)在出現(xiàn)了短缺的問題了。你說把數(shù)據(jù)中心建在別的國家,然后再去訓(xùn)練,甚至利用當(dāng)?shù)貒业臄?shù)據(jù),我覺得這是不可想象的事情。

這么聊下來,美國的電荒危機(jī)將繼續(xù)擴(kuò)大。那么要保證像Stargate這種量級的項(xiàng)目,能耗的問題,到底該如何解決呢?

從The Information爆料出的Stargate內(nèi)部討論來看,更高效的數(shù)據(jù)中心優(yōu)化,以及核能等替代能源,都是急需技術(shù)突破的方向。我們先來聊聊芯片和數(shù)據(jù)中心的優(yōu)化。

04 數(shù)據(jù)中心優(yōu)化:芯片效率及液冷技術(shù)

我們在前面講到數(shù)據(jù)中心的電力使用效率PUE,如果PUE越接近1,能耗效率就越高對吧。那么,如何優(yōu)化數(shù)據(jù)中心的PUE呢?誒,老黃給出了一些可行性答案。

在2024年的英偉達(dá)大會上,黃仁勛說,新一代Blackwell GB200的能耗是前一代Hopper架構(gòu)的四分之一。英偉達(dá)的BlackwellGB200是如何實(shí)現(xiàn)能耗優(yōu)化的呢?我們來通過英偉達(dá)的動畫演示仔細(xì)解讀一下。

這是Blackwell的GPU核心,在動畫中,兩個核心拼接在一起,組成了B100的核心。

這六個方塊,就是核心旁邊的HBM(High Bandwidth Memory高帶寬內(nèi)存)。旁邊是8個內(nèi)存卡,這就是一個GPU。這六個方塊,就是核心旁邊的HBM(High Bandwidth Memory高帶寬內(nèi)存)。旁邊是8個內(nèi)存卡,這就是一個GPU。

這是加了他們的Grace CPU,CPU是主要大腦,帶動了兩塊GPU。這個就叫GB200(3:55)那個G就是它那個 Grace CPU。

兩塊GB200裝入機(jī)柜后,就組成了一個NODE,計算節(jié)點(diǎn)。這里加入的卡是Infiniband,主要功能是讓各計算單元之間高速通信。

除了Infiniband,NODE還加入了DPU(Data Processing Unit),用來處理數(shù)據(jù),減輕CPU負(fù)擔(dān)。

英偉達(dá)會將18個NODE組合。這是英偉達(dá)的NVLink Switch芯片,大家可以把這層理解為交換機(jī),用于連通NODE。

并加上局域網(wǎng)加速卡,組成了整個機(jī)組。再通過不斷增加機(jī)組,最后成為了數(shù)據(jù)中心。

解釋完GTC上的這段動畫,相信大家也理解了Blackwell和B200是什么。在GTC上,老黃介紹過Blackwell GPU擁有2080億個晶體管,用于AI訓(xùn)練時,速度將比H100快1倍,而推理速度則快5倍。最重要的是,對于相同的AI訓(xùn)練量,GB200的功耗是之前的四分之一。

這么看來,從一定程度上,隨著B200的問世,AI數(shù)據(jù)中心的耗電問題將有所緩解,畢竟英偉達(dá)占據(jù)了95%的AI市場。

在能耗上,還有一點(diǎn)很重要。讓以上英偉達(dá)數(shù)據(jù)中心這一切能順利運(yùn)轉(zhuǎn)的,是即將成為行業(yè)標(biāo)配的“液體冷卻技術(shù)”。Bank of America在研報上解釋,接下來,隨著數(shù)據(jù)中心功率密度的提高,傳統(tǒng)的風(fēng)冷系統(tǒng)方法可能不再適用,需要采用液體冷卻解決方案,這會幫助提高數(shù)據(jù)中心的效能。

我們之前在英偉達(dá)GTC展會上采訪了Supermicro的人,對方也說了同樣的話:在英偉達(dá)Blackwell架構(gòu)之后的AI數(shù)據(jù)中心都會轉(zhuǎn)向液體冷卻方案。

液冷技術(shù)其實(shí)已經(jīng)發(fā)展了相當(dāng)?shù)臅r間了,目前分為直抵芯片液體冷卻,和浸入式液體冷卻這兩種技術(shù)方向。中間的技術(shù)細(xì)節(jié)先不說了,總而言之,液冷不僅創(chuàng)造了降低數(shù)據(jù)中心能耗的機(jī)會,還能將電力使用效率(PUE)降至接近1的理想狀態(tài)。

但注意,我這里說的是“理想狀態(tài)”。那現(xiàn)實(shí)呢?

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

就是這個B100比以前的H100會tricky(刁鉆)很多,因?yàn)檫@個liquid cooling(液體冷卻)現(xiàn)在市場上是沒有標(biāo)準(zhǔn),很多這種數(shù)據(jù)中心或者這種擔(dān)憂,他其實(shí)不敢私自去碰這個liquid cooling。因?yàn)橛ミ_(dá)它有要求,因?yàn)橛ミ_(dá)它交貨的時候,它里頭是不帶liquid cooling的,所以你要裝liquid cooling,你其實(shí)把它自帶那套東西給拆了。那你裝了以后如果出問題,英偉達(dá)不保修了。所以很多人他是不敢亂碰這個liquid cooling。

首先,最大的問題是產(chǎn)能,即使Blackwell出來了,但H100依然處于供不應(yīng)求的情況,想把H100全換成B100,不說有沒有這么多卡,在整個行業(yè)缺算力時,企業(yè)的選擇只有增配,而非替換。

其次,就算想用B100換成H100,技術(shù)上也存在問題。數(shù)據(jù)中心設(shè)計時,整個配套設(shè)備如變壓器、導(dǎo)線、散熱,都要與芯片匹配,不論是B100、B200還是GB200,其配套方案都與上一代不同,所以現(xiàn)有的數(shù)據(jù)中心將難以直接更換。

John Yue

Inference.ai創(chuàng)始人兼首席執(zhí)行官

現(xiàn)在還沒有任何人在英偉達(dá)之外成功的部署了一個B100,所以要怎么部署大家還不確定。因?yàn)樗_實(shí)跟H100不太一樣。視頻里放的那個,把那個扣打開,H100拿出來,B100插進(jìn)去,那個是非常理想化的,其實(shí)你要改很多東西。B100可能還稍微好一些,像他說那個B200大家要都用上,我覺得時間就長了。

因?yàn)槟莻€機(jī)柜可能要重新改,他耗電太大啊。你要重新建數(shù)據(jù)中心,要不然就是因?yàn)槟隳莻€cooling(冷卻)的那個功率不夠,你可能要把你的這數(shù)據(jù)中心重新擺排。或者你機(jī)柜離太近太熱了,然后你的那個冷卻達(dá)不到標(biāo)的話,你想要把這些機(jī)柜全都離遠(yuǎn)一點(diǎn),這個非常費(fèi)事。

最后,由于競爭存在,資本對算力的需求,將是永無止境的。也就是說,芯片和數(shù)據(jù)中心在能耗效率上的提高比起市場上的整體需求上漲,依然無法改善算力短缺,總能耗依然在快速飆升。

在PC快速發(fā)展的時代,出現(xiàn)過安迪-比爾定理,不論英特爾如何提升芯片性能,這部分很快會被微軟的軟件需求給吃掉。到了如今的AI時代,類似的定律可能會再次上演。

徐熠興(Ethan):

我覺得在GPU上有可能也會出現(xiàn)類似的情況,就是它的能耗降低了很多,很快,但是因?yàn)槟芎牡慕档?,可能會?dǎo)致更多的人,在更多的應(yīng)用,會需要更多的GPU,最后還是會導(dǎo)致能耗的總體能耗的增加。

那么,有沒有更強(qiáng)大的幫我們解決能耗問題的解決方案呢?

05 能源終極方案:核聚變?

遷往它國不行,降低能耗不夠,AI發(fā)展也不能停,在如此大的電力缺口面前,巨頭們該何去何從呢?

徐熠興(Ethan)提到了一個思路,在短期內(nèi),分布式儲能會是比較重要的方案。例如發(fā)展光伏充電,讓每家每戶都裝上太陽能板,以此來減輕家庭用電對電網(wǎng)的依賴,將更多電能用于AI產(chǎn)業(yè)。畢竟我們前面也提到過,AI對國家經(jīng)濟(jì)非常重要,所以政府是有動力去推進(jìn)這項(xiàng)計劃的。

同時,由于發(fā)電廠是持續(xù)發(fā)電,但總有一些時間電網(wǎng)負(fù)荷量低,這時沒用上的電,也就白白流失了,因此建設(shè)儲能設(shè)備也能讓發(fā)電廠的電,得到充分利用。目前主流的儲能設(shè)備是電池,有些地方則會用到抽水蓄電,也就是在用電低谷時,將水抽到地勢高的地方,等高峰時再釋放,通過水的流勢來發(fā)電。

然而,分布式儲能和新能源供電只能短時間內(nèi)提供電力上的幫助,目前看來并不能作為長期AI發(fā)展中的可靠能源支持,無法解決長期需求。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

之所以會出現(xiàn)這樣的情況,最主要的一個原因就是,我們現(xiàn)在依靠的很多清潔能源,比如說風(fēng)能和太陽能,他們都不是完全可控的,有風(fēng)、有太陽的時候你有能源,沒有風(fēng)和太陽的時候你就沒有這些能源了。

為此,像微軟這樣的巨頭,正積極地和美國各電力公司合作,甚至Sam Altman直接投資了一家名為HelionEnergy的能源公司。

Lex Fridman:你如何解決能源問題?核聚變?

Sam Altman:那是我認(rèn)可的

Lex Fridman:誰來解決這個問題?

Sam Altman:我認(rèn)為Helion做得最好

沒錯,核能,這是巨頭們所堅信的方向。核聚變是將氘、氚通過一定手段,使其成為等離子態(tài),發(fā)生核聚變后產(chǎn)生能量,一旦外力停止,等離子態(tài)會消失,反應(yīng)結(jié)束,相對而言更可控、更安全。

Helion走的就是核聚變的道路,他們還和微軟簽訂了對賭協(xié)議,承諾在2028年之前開始通過核聚變發(fā)電,并在一年之后以0.01美元每千瓦時的價格為微軟提供目標(biāo)為至少50兆瓦的發(fā)電量,否則將支付罰款。這個激進(jìn)的“對賭協(xié)議”被認(rèn)為是核聚變發(fā)電領(lǐng)域的首個商業(yè)協(xié)議。

項(xiàng)江

瀚海聚能CEO

它的底氣就是在于它現(xiàn)在采用的技術(shù)路線,建設(shè)的裝置的成本非常低。如果用托卡馬克一個裝置要上百億、四五百億來建造的話,那么它的技術(shù)迭代周期就會達(dá)到10年以上。

項(xiàng)江

瀚海聚能CEO

它采用的是,直線型場反位形的這樣一個技術(shù)路線,這樣大幅降低了它的資金門檻。

那目前核聚變又發(fā)展到什么水平了呢?

項(xiàng)江

瀚海聚能CEO

其實(shí)說現(xiàn)在的技術(shù)發(fā)展水平來講的話,現(xiàn)在核聚變是完全可以用于發(fā)電的,只不過我們目前還在處于做實(shí)驗(yàn)的階段,我們現(xiàn)在用的是氘-氘進(jìn)行反應(yīng)做實(shí)驗(yàn),要用到核電站的這樣的發(fā)電效率的話,至少用氘-氚聚變來發(fā)電,而且它現(xiàn)在叫有價無市,每克氚大概是在兩三百萬這樣人民幣的這樣一個價格。

想用核聚變來發(fā)電,還得解決熱傳導(dǎo)、渦輪電機(jī)、供電并網(wǎng)等設(shè)施,這其中的投資又是幾十億,所以,業(yè)內(nèi)很多聲音其實(shí)對Helion公司在2029年開始給微軟用核聚變供電保持非常懷疑的態(tài)度。但其實(shí),微軟自己也對核聚變技術(shù)的到來也并不盲目樂觀。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

其實(shí)微軟投資這個公司或者簽這個合同的主要目的,是在于能夠前期就給他們需求側(cè)的一個強(qiáng)烈的信號,通過這樣的方式去支持這樣的創(chuàng)新公司,去幫助他們,去減少他們面對的風(fēng)險。

微軟和幾個大公司,包括亞馬遜,包括谷歌等等,其實(shí)都一直在用自己的投資部門,去投資不同的新科技,這其中就有核能,包括核聚變。他們的希望也是通過投資這些技術(shù),讓這些技術(shù)公司能夠發(fā)展的更好,能夠用更快的速度、更低的成本實(shí)現(xiàn)規(guī)?;?,能夠把這個核聚變盡可能實(shí)現(xiàn)。

雖然核聚變何時能到來還是一個巨大的未知數(shù),但顯然,核能將是接下來巨頭們瞄準(zhǔn)的市場。近來,亞馬遜購買了一個擁有核能供應(yīng)的賓夕法尼亞州數(shù)據(jù)中心地點(diǎn)。根據(jù)兩位參與談判的人士透露,微軟也曾討論競標(biāo)同樣的地點(diǎn)。所以,接下來,有核能供應(yīng)的數(shù)據(jù)中心選址,可能將是下一個科技巨頭們的兵家必爭之地。

文章的最后,我們再來聊聊一個更現(xiàn)實(shí)的問題:目前硅谷科技巨頭們開啟了搶電大戰(zhàn),但他們承諾的碳中和目標(biāo)怎么辦?

06 更貴、更難的碳中和目標(biāo)

還有個很重要的問題,就是環(huán)保,眾所周知,現(xiàn)在全球推進(jìn)碳中和目標(biāo),但隨著AI巨大的耗電需求,碳中和的實(shí)現(xiàn)難度和成本將可能翻倍。

當(dāng)前生成式AI的軍備競賽無疑是打亂了一眾科技巨頭的碳排放計劃,因?yàn)闈M足AI Scaling law(規(guī)模法則)的發(fā)展實(shí)在太耗能源了,可以說是非常高碳的經(jīng)濟(jì)活動。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

在更早的時候就已經(jīng)開始開啟了能源轉(zhuǎn)型的道路,所以像很多的大的公司,包括微軟、谷歌、亞馬遜、Meta等等,他們在AI出現(xiàn)之前就已經(jīng)向公眾作出了這個承諾,當(dāng)時是沒有考慮到AI的。

微軟承諾2030年實(shí)現(xiàn)100%沒有任何碳排放的清潔能源使用、實(shí)現(xiàn)碳中和,亞馬遜承諾2040年之前實(shí)現(xiàn)碳中和,谷歌和Meta承諾2030年之前實(shí)現(xiàn)整個運(yùn)營和價值鏈上的碳中和,但因?yàn)檫@輪AI的出現(xiàn),這些承諾似乎更難以達(dá)到了。

徐熠興(Ethan)

微軟能源戰(zhàn)略部資深項(xiàng)目經(jīng)理

此前這些公司在做這些承諾的時候,他們的目標(biāo)就已經(jīng)設(shè)得足夠高、足夠難了,在沒有AI之前,要實(shí)現(xiàn)能源轉(zhuǎn)型的成本就很高,如果加上AI之后,成本有可能會翻倍。當(dāng)能源轉(zhuǎn)型進(jìn)行到最后的那5%、10%的時候,想再實(shí)現(xiàn)95%甚至99%的清潔能源的時候,這個成本就幾乎是指數(shù)性的增長。

除了電能之外,水能源其實(shí)也遭遇著類似的挑戰(zhàn)。近年來,在AI大模型領(lǐng)域領(lǐng)先的科技公司們,也都面臨水消耗大幅增長的局面,數(shù)據(jù)顯示,人工智能聊天機(jī)器人ChatGPT每發(fā)出10到50次對話提示,就會“吞下”500毫升水。

2023年6月,微軟公司發(fā)布了2022年度環(huán)境可持續(xù)發(fā)展報告,其中用水一項(xiàng),有超過34%的顯著增長。

谷歌公司也類似,甚至引發(fā)了2023年年中,在烏拉圭首都的民眾抗議,這個南美國家遭受74年來最嚴(yán)重的干旱之際,試圖阻止谷歌在當(dāng)?shù)亟ㄔO(shè)數(shù)據(jù)中心的計劃。

而我們在文章中提到的液態(tài)冷卻技術(shù),和系統(tǒng)的進(jìn)一步普及和運(yùn)用,也將繼續(xù)對水資源有著持續(xù)的需求。

在技術(shù)發(fā)展和能源消耗之間的選擇,非常兩難。一面需要穩(wěn)定、大量的電力來打AI技術(shù)和商業(yè)之戰(zhàn),一面需要向社會履行環(huán)保承諾來打碳中和之戰(zhàn),無論是哪一場戰(zhàn)役,都是昂貴且困難的。業(yè)內(nèi)流行著一句話:AGI的盡頭是能源。如果人類到達(dá)AGI之前可控核聚變技術(shù)無法實(shí)現(xiàn),那么現(xiàn)有的能源方案能帶我們走多遠(yuǎn)?這是一個巨大的不確定性。

同時,在科技公司們計算AI成本時,我們也不要忘了社會成本。政府間氣候變化專門委員會(IPCC)的報告指出,如果我們不能在本世紀(jì)內(nèi)有效控制全球溫升,氣候變化越過臨界點(diǎn)將會導(dǎo)致極端天氣事件更加頻繁。Climate Policy Initiative的研究報告預(yù)計,氣候風(fēng)險帶來的累計損失到2100年可能高達(dá)數(shù)百萬億美元。

如果AI的發(fā)展將推高碳排放、推后碳中和且導(dǎo)致更多氣候損失,那么這也要算入AI成本中。屆時,人類對AI技術(shù)發(fā)展的這筆經(jīng)濟(jì)帳,還能否算得過來呢?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。