正在閱讀:

一文看懂2025GTC:AI推理時(shí)代到來,英偉達(dá)推出“算力核彈”

掃一掃下載界面新聞APP

一文看懂2025GTC:AI推理時(shí)代到來,英偉達(dá)推出“算力核彈”

黃仁勛在演講中反復(fù)傳遞出一個(gè)信號(hào):隨著AI行業(yè)在模型訓(xùn)練上的整體需求放緩,以及DeepSeek在模型推理上所做的創(chuàng)新,AI推理時(shí)代很快將要到來。

圖源:視覺中國

界面新聞?dòng)浾?| 李彪

界面新聞編輯 | 文姝琪

美國時(shí)間3月18日,英偉達(dá)在美國圣何塞舉辦GTC(GPU技術(shù)大會(huì))。作為全球最受關(guān)注的科技巨頭,今年GTC吸引約2.5萬人線下參加,另有30萬人通過線上方式收看直播。

英偉達(dá)CEO黃仁勛在主題演講開場(chǎng)說道,“因?yàn)锳I技術(shù)爆發(fā),GTC大會(huì)的規(guī)模每年都在擴(kuò)大。去年他們說GTC是AI行業(yè)的‘伍德斯托克搖滾音樂節(jié)’。今年我們搬進(jìn)了體育場(chǎng),GTC已經(jīng)成AI行業(yè)的‘超級(jí)碗’”。

而在此次GTC大會(huì)上,英偉達(dá)不僅發(fā)布了Blackwell GPU、硅光交換機(jī)、機(jī)器人模型等一系列新產(chǎn)品。黃仁勛還在演講中反復(fù)傳遞出一個(gè)信號(hào):隨著AI行業(yè)在模型訓(xùn)練上的整體需求放緩,再加上DeepSeek在模型推理上所做創(chuàng)新,AI推理時(shí)代即將到來。

演講結(jié)束后,英偉達(dá)股價(jià)收盤跌超3.4%,報(bào)115.43美元/股,盤后繼續(xù)下跌0.56%。

Blackwell  Ultra GPU:專為AI推理打造的“算力核彈”

作為GTC的重頭戲,黃仁勛在演講中宣布推出數(shù)據(jù)中心AI GPU的新一代產(chǎn)品——NVIDIA Blackwell Ultra GPU。

此前市場(chǎng)傳言英偉達(dá)去年年底計(jì)劃將Blackwell Ultra改名為B300 ,但根據(jù)現(xiàn)場(chǎng)公布的結(jié)果,官方保留了原始命名。Blackwell Ultra GPU相比于上一代B200GPU性能提升了50%,約為15P FLOPS(基于低精度的四位浮點(diǎn)數(shù)格式FP4標(biāo)準(zhǔn)),內(nèi)存上則搭載了業(yè)內(nèi)最先進(jìn)的HBM3E,從192GB升級(jí)到了288GB。

圖源:英偉達(dá)

基于Blackwell Ultra,英偉達(dá)面向云計(jì)算廠商等大型企業(yè)客戶客戶提供兩款系統(tǒng)集成產(chǎn)品:Blackwell Ultra NVL72機(jī)架式解決方案與NVIDIA HGX Blackwell Ultra NVL16系統(tǒng)。

其中,Blackwell Ultra NVL72是在一個(gè)數(shù)據(jù)中心機(jī)架(一臺(tái)服務(wù)器搭載8個(gè)GPU,一個(gè)機(jī)架可以容納多臺(tái)服務(wù)器)中連接了72個(gè)Blackwell Ultra GPU以及36個(gè)英偉達(dá)基于ARM架構(gòu)設(shè)計(jì)的Grace CPU。據(jù)與上一代B200GPU的同類產(chǎn)品相比,Blackwell Ultra NVL72在AI算力性能上提升超過了50%。HGX Blackwell Ultra NV16則是運(yùn)用NVLink高速互聯(lián)網(wǎng)絡(luò)連接8個(gè)Blackwell Ultra GPU的服務(wù)器系統(tǒng)產(chǎn)品。

與A100、H100等多款主要用在AI模型預(yù)訓(xùn)練的產(chǎn)品不同,英偉達(dá)此次明確定位Blackwell Ultra“專為AI模型推理打造”(AI-Reasoning),同時(shí)兼顧"訓(xùn)練和多場(chǎng)景AI應(yīng)用的高效性"。Blackwell Ultra NVL72和HGX Blackwell Ultra NVL16(8GPU)兩款系統(tǒng)產(chǎn)品也在提升計(jì)算能力和內(nèi)存容量的同時(shí),專為復(fù)雜AI推理任務(wù)做了優(yōu)化。以HGX Blackwell Ultra NVL16為例,相較于上一代Hopper架構(gòu),這款新品在大模型推理速度上提升了11倍。

此前在DeepSeek用極低的算力成本完成模型開發(fā)后,外界就曾擔(dān)憂市場(chǎng)對(duì)英偉達(dá)算力芯片產(chǎn)品的旺盛需求是否會(huì)放緩,英偉達(dá)官方及黃仁勛就曾在多個(gè)場(chǎng)合表示,相比于AI廠商先前將大量算力投資用于AI模型訓(xùn)練上,DeepSeek主要在模型推理運(yùn)用了創(chuàng)新技術(shù),而AI推理依然需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò)。

在AI行業(yè)的“Scaling Law”法則(模型規(guī)模越大,模型越智能)在預(yù)訓(xùn)練環(huán)節(jié)放緩后,推理環(huán)節(jié)將催生更大規(guī)模的算力需求,因此“DeepSeek的出現(xiàn)反而證明市場(chǎng)需要更多AI芯片”。

據(jù)黃仁勛介紹,Blackwell系列,目前已經(jīng)全面投產(chǎn)。“產(chǎn)量驚人,客戶需求驚人,因?yàn)槿斯ぶ悄艹霈F(xiàn)了一個(gè)拐點(diǎn),由于推理人工智能以及推理人工智能系統(tǒng)和智能體系統(tǒng)的訓(xùn)練,人工智能領(lǐng)域必須完成的計(jì)算量大大增加?!?/p>

按照英偉達(dá)“一年一更新”發(fā)布節(jié)奏,黃仁勛演講中預(yù)告了下一代Rubin架構(gòu)兩款產(chǎn)品Rubin GPU、Rubin Ultra GPU的性能信息。

Rubin GPU算力性能將在FP4標(biāo)準(zhǔn)下達(dá)到50P Flops,約是Blackwell Ultra GPU的3.3倍,Rubin Ultra GPU則在相同標(biāo)準(zhǔn)下為100P。兩款新架構(gòu)產(chǎn)品屆時(shí)也將用上HBM4、HBM4E先進(jìn)AI內(nèi)存。搭載Rubin GPU的Vera Rubin NVL144(連接144個(gè)GPU)將于 2026 年下半年推出,Rubin Ultra GPU的Rubin Ultra NVL576(連接576個(gè)GPU)將于2027年下半年推出。

繼Rubin架構(gòu)之后,黃仁勛現(xiàn)場(chǎng)公布下一代GPU架構(gòu)的命名為“Feynman”,取自著名物理學(xué)家理查德?費(fèi)曼(Richard Feynman),F(xiàn)eynman架構(gòu)產(chǎn)品將于2028年發(fā)布。

智能體和機(jī)器人時(shí)代,AI將需要更多芯片

與去年GTC密集發(fā)布各種新產(chǎn)品的節(jié)奏不同,黃仁勛今年在公布新品前,在現(xiàn)場(chǎng)花了更多時(shí)間科普“Agentic AI”的概念,以及AI推理帶來的巨大改變。

在現(xiàn)場(chǎng)展示的AI技術(shù)發(fā)展路線圖中,黃仁勛按照“Generative AI(生成式AI)、Agentic AI(智能體)、Physical AI(具身AI)”三個(gè)階段的進(jìn)化路線,將Agentic AI描述為AI技術(shù)發(fā)展的中間態(tài)。

相比于生成式AI的主要應(yīng)用——語言大模型與聊天機(jī)器人——主要聚焦于生成文本、圖像內(nèi)容,Agentic AI更進(jìn)一步,能夠理解任務(wù)、進(jìn)行復(fù)雜推理、制定計(jì)劃并自主執(zhí)行多步驟操作,目前業(yè)內(nèi)熱議的數(shù)字員工等AI Agent即為相關(guān)應(yīng)用。

圖源:英偉達(dá)

在生成式AI的第一階段,AI行業(yè)的“Scaling Law”法則集中體現(xiàn)在模型訓(xùn)練上,特別是預(yù)訓(xùn)練環(huán)節(jié)(Pre-Training,即從無到有開發(fā)模型的前期訓(xùn)練階段),投入更多的數(shù)據(jù)、更大規(guī)模的算力資源訓(xùn)練出更好的模型,訓(xùn)練規(guī)模越大,模型越智能。

黃仁勛認(rèn)為,從過去一年的行業(yè)發(fā)展進(jìn)程來看,預(yù)訓(xùn)練為主的Scaling Law法則已走入“誤區(qū)”。從今年乃至未來很長一段時(shí)間內(nèi),Agentic AI將代替生成式AI,成為行業(yè)新的發(fā)展方向。由于Agentic AI強(qiáng)調(diào)自主性與復(fù)雜問題解決能力,每一步解決復(fù)雜問題、分解任務(wù)的邏輯思考過程都需要用到“模型推理”,因此推理將成為新階段的核心動(dòng)力。

而從生成式AI發(fā)展到Agentic AI,并不意味著Scaling Law法則失效。相反,由于將應(yīng)用范圍從訓(xùn)練進(jìn)一步擴(kuò)展到推理,不只在預(yù)訓(xùn)練環(huán)節(jié),模型的后訓(xùn)練(Post-Training,指預(yù)訓(xùn)練得到模型后,根據(jù)特定任務(wù)或需求,使用更小規(guī)模、更專注的數(shù)據(jù)集對(duì)模型進(jìn)行進(jìn)一步優(yōu)化訓(xùn)練或微調(diào)的過程)和日常推理的長期思考(Long-Thinking)都要繼續(xù)消耗算力資源,Scaling Law法則對(duì)規(guī)模的要求非但會(huì)變小,相反會(huì)進(jìn)一步擴(kuò)大。

以一個(gè)用戶訪問AI應(yīng)用時(shí)產(chǎn)生的Token來舉例,對(duì)于Agentic AI來說,推理所涉及的任務(wù)更加復(fù)雜,可能需要生成或處理更多Token來完成規(guī)劃和執(zhí)行。同時(shí)隨著更多用戶同時(shí)訪問AI,Token的數(shù)量會(huì)爆炸式增加。對(duì)于大模型來說,每生成一個(gè)Token往往需要數(shù)千億次浮點(diǎn)運(yùn)算,如何在有限時(shí)間內(nèi)盡可能多的生成Token,并快速將推理結(jié)果反饋給用戶,大規(guī)模的算力資源是完成這一切的基礎(chǔ)。

按照現(xiàn)場(chǎng)顯示的效果,Blackwell Ultra NVL72集群在運(yùn)行DeepSeek-R1 671B交互式副本時(shí),只需10秒就可以給出答案,而上一代Hopper架構(gòu)的H100同類產(chǎn)品則需要1分半。

此次大會(huì)上,英偉達(dá)還發(fā)布了一款新型的AI 推理服務(wù)軟件Dynamo。它協(xié)調(diào)和加速數(shù)千個(gè)GPU之間的推理通信,并使用分解服務(wù)將大型語言模型的處理和生成階段分離在不同GPU上。這允許每個(gè)階段根據(jù)其特定需求進(jìn)行獨(dú)立優(yōu)化,并確保最大程度地利用GPU資源。

黃仁勛認(rèn)為,推理所需算力需求規(guī)模增長能“輕松超過去年估計(jì)的100倍”,未來行業(yè)需要更多、性能更強(qiáng)的AI芯片。根據(jù)他的預(yù)測(cè),數(shù)據(jù)中心建設(shè)的投入到2028年將達(dá)到1萬億美元,目前“相當(dāng)確定很快就會(huì)達(dá)到這個(gè)目標(biāo)”。

硅光網(wǎng)絡(luò)交換機(jī)、機(jī)器人模型與量子計(jì)算研究中心

此外,在今年GTC大會(huì)上,英偉達(dá)還將在硅光芯片、機(jī)器人應(yīng)用、量子計(jì)算等領(lǐng)域有進(jìn)一步的探索。

硅光領(lǐng)域,英偉達(dá)最新發(fā)布了NVIDIA Spectrum-X(基于以太網(wǎng),適合兼容更廣泛的企業(yè)網(wǎng)絡(luò))及NVIDIA Quantum-X(基于InfiniBand,偏向?qū)S糜?jì)算集群)硅光網(wǎng)絡(luò)交換機(jī)。

這兩款硅光網(wǎng)絡(luò)交換機(jī)新品是英偉達(dá)首次利用“光電共封裝技術(shù)”(co-packaged optics, CPO)將光通信直接集成到交換機(jī)上,推出的商用化硅光交換機(jī)產(chǎn)品。此前英偉達(dá)的交換機(jī)產(chǎn)品的光通信部分主要為“外掛式”,依賴從Finisar和Lumentum等外部供應(yīng)商采購的標(biāo)準(zhǔn)化模塊。

此次英偉達(dá)的硅光網(wǎng)絡(luò)交換機(jī)新品與臺(tái)積電、Coherent、康寧公司(Corning)、富士康、Lumentum和SENKO等行業(yè)巨頭合作。Quantum-X交換機(jī)預(yù)計(jì)將于今年晚些時(shí)候上市,Spectrum-X交換機(jī)預(yù)計(jì)于2026年通過主流基礎(chǔ)設(shè)施和系統(tǒng)供應(yīng)商推出。

黃仁勛曾經(jīng)用“A工廠”描繪AI時(shí)代超大規(guī)模數(shù)據(jù)中心的未來形態(tài)。隨著AI數(shù)據(jù)工廠規(guī)模的擴(kuò)張,網(wǎng)絡(luò)基礎(chǔ)設(shè)施也需要同步徹底革新。英偉達(dá)希望通過將硅光子技術(shù)直接集成到交換機(jī)中,突破超大規(guī)模和企業(yè)網(wǎng)絡(luò)的傳統(tǒng)限制,為目前萬張、十萬張GPU的數(shù)據(jù)中心向百萬張GPU的AI工廠過渡奠定基礎(chǔ)。

機(jī)器人作為未來“具身AI”(Physical AI)的關(guān)鍵應(yīng)用,英偉達(dá)旗下輔助生成機(jī)器人訓(xùn)練數(shù)據(jù)的物理世界模型Cosmos、人形機(jī)器人基礎(chǔ)模型GROOT N1以及3D實(shí)時(shí)仿真平臺(tái)Omniverse是這一領(lǐng)域的主要產(chǎn)品。

圖源:視覺中國

其中,GROOT N1是通用機(jī)器人基礎(chǔ)模型,英偉達(dá)此次正式宣布已經(jīng)將其開源。GROOT N1模型采用雙系統(tǒng)架構(gòu),靈感來自人類認(rèn)知原理。在視覺語言模型的支持下,一個(gè)系統(tǒng)可以推理其環(huán)境和收到的指令,從而規(guī)劃行動(dòng)。另一個(gè)系統(tǒng)然后將這些計(jì)劃轉(zhuǎn)化為精確、連續(xù)的機(jī)器人動(dòng)作。

除硅光芯片與機(jī)器人應(yīng)用外,在谷歌、微軟相繼在量子計(jì)算芯片領(lǐng)域有重大突破后,量子計(jì)算當(dāng)前成為了硅谷科技巨頭布局未來的一個(gè)熱門方向。英偉達(dá)此次也在GTC大會(huì)上宣布,將在波士頓建設(shè)NVIDIA加速量子研究中心(NVAQC)。據(jù)官方介紹,該中心是一個(gè)以研究為導(dǎo)向的機(jī)構(gòu),將通過尖端技術(shù)推動(dòng)量子計(jì)算架構(gòu)與算法的發(fā)展。

值得關(guān)注的是,去年谷歌發(fā)布的Willow芯片攻克困擾量子計(jì)算研究30年的“量子糾錯(cuò)”難題,市場(chǎng)升溫帶動(dòng)量子計(jì)算概念股上股價(jià)漲,黃仁勛曾在今年1月接受分析師采訪時(shí)給量子計(jì)算的落地“潑了一盆冷水”:要造出“非常有用的量子計(jì)算機(jī)”,可能需要20年。黃的這一評(píng)價(jià)當(dāng)時(shí)導(dǎo)致一眾量子計(jì)算相關(guān)股票應(yīng)聲下跌。

黃仁勛在談及英偉達(dá)成立量子研究中心的目標(biāo)時(shí)提到,量子計(jì)算的實(shí)用化依賴于解決關(guān)鍵技術(shù)挑戰(zhàn),如量子比特噪聲和糾錯(cuò)。而NVAQC的使命是推動(dòng)這些突破:“NVIDIA加速量子研究中心將是突破發(fā)生的地方,以創(chuàng)建大規(guī)模、有用的加速量子超級(jí)計(jì)算機(jī)?!?/p>

對(duì)于市場(chǎng)擔(dān)憂量子計(jì)算顛覆現(xiàn)有計(jì)算工具,以前所未有的計(jì)算速度在密碼學(xué)、隱私數(shù)據(jù)保護(hù)領(lǐng)域形成“量子霸權(quán)”,黃仁勛明確表示,量子計(jì)算不會(huì)單獨(dú)取代現(xiàn)有的計(jì)算技術(shù),而是作為AI計(jì)算能力的補(bǔ)充。未來的量子計(jì)算將成為AI超級(jí)計(jì)算機(jī)的“增強(qiáng)工具”,在藥物開發(fā)、新材料制造等特定高復(fù)雜性領(lǐng)域發(fā)揮作用。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

英偉達(dá)

7.4k
  • 英偉達(dá)CEO黃仁勛:公司尚未收到收購英特爾股份的請(qǐng)求
  • 科技早報(bào) | 英偉達(dá)正式推出Blackwell Ultra芯片;小米計(jì)劃擴(kuò)大第二座電動(dòng)汽車工廠規(guī)模

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

一文看懂2025GTC:AI推理時(shí)代到來,英偉達(dá)推出“算力核彈”

黃仁勛在演講中反復(fù)傳遞出一個(gè)信號(hào):隨著AI行業(yè)在模型訓(xùn)練上的整體需求放緩,以及DeepSeek在模型推理上所做的創(chuàng)新,AI推理時(shí)代很快將要到來。

圖源:視覺中國

界面新聞?dòng)浾?| 李彪

界面新聞編輯 | 文姝琪

美國時(shí)間3月18日,英偉達(dá)在美國圣何塞舉辦GTC(GPU技術(shù)大會(huì))。作為全球最受關(guān)注的科技巨頭,今年GTC吸引約2.5萬人線下參加,另有30萬人通過線上方式收看直播。

英偉達(dá)CEO黃仁勛在主題演講開場(chǎng)說道,“因?yàn)锳I技術(shù)爆發(fā),GTC大會(huì)的規(guī)模每年都在擴(kuò)大。去年他們說GTC是AI行業(yè)的‘伍德斯托克搖滾音樂節(jié)’。今年我們搬進(jìn)了體育場(chǎng),GTC已經(jīng)成AI行業(yè)的‘超級(jí)碗’”。

而在此次GTC大會(huì)上,英偉達(dá)不僅發(fā)布了Blackwell GPU、硅光交換機(jī)、機(jī)器人模型等一系列新產(chǎn)品。黃仁勛還在演講中反復(fù)傳遞出一個(gè)信號(hào):隨著AI行業(yè)在模型訓(xùn)練上的整體需求放緩,再加上DeepSeek在模型推理上所做創(chuàng)新,AI推理時(shí)代即將到來。

演講結(jié)束后,英偉達(dá)股價(jià)收盤跌超3.4%,報(bào)115.43美元/股,盤后繼續(xù)下跌0.56%。

Blackwell  Ultra GPU:專為AI推理打造的“算力核彈”

作為GTC的重頭戲,黃仁勛在演講中宣布推出數(shù)據(jù)中心AI GPU的新一代產(chǎn)品——NVIDIA Blackwell Ultra GPU。

此前市場(chǎng)傳言英偉達(dá)去年年底計(jì)劃將Blackwell Ultra改名為B300 ,但根據(jù)現(xiàn)場(chǎng)公布的結(jié)果,官方保留了原始命名。Blackwell Ultra GPU相比于上一代B200GPU性能提升了50%,約為15P FLOPS(基于低精度的四位浮點(diǎn)數(shù)格式FP4標(biāo)準(zhǔn)),內(nèi)存上則搭載了業(yè)內(nèi)最先進(jìn)的HBM3E,從192GB升級(jí)到了288GB。

圖源:英偉達(dá)

基于Blackwell Ultra,英偉達(dá)面向云計(jì)算廠商等大型企業(yè)客戶客戶提供兩款系統(tǒng)集成產(chǎn)品:Blackwell Ultra NVL72機(jī)架式解決方案與NVIDIA HGX Blackwell Ultra NVL16系統(tǒng)。

其中,Blackwell Ultra NVL72是在一個(gè)數(shù)據(jù)中心機(jī)架(一臺(tái)服務(wù)器搭載8個(gè)GPU,一個(gè)機(jī)架可以容納多臺(tái)服務(wù)器)中連接了72個(gè)Blackwell Ultra GPU以及36個(gè)英偉達(dá)基于ARM架構(gòu)設(shè)計(jì)的Grace CPU。據(jù)與上一代B200GPU的同類產(chǎn)品相比,Blackwell Ultra NVL72在AI算力性能上提升超過了50%。HGX Blackwell Ultra NV16則是運(yùn)用NVLink高速互聯(lián)網(wǎng)絡(luò)連接8個(gè)Blackwell Ultra GPU的服務(wù)器系統(tǒng)產(chǎn)品。

與A100、H100等多款主要用在AI模型預(yù)訓(xùn)練的產(chǎn)品不同,英偉達(dá)此次明確定位Blackwell Ultra“專為AI模型推理打造”(AI-Reasoning),同時(shí)兼顧"訓(xùn)練和多場(chǎng)景AI應(yīng)用的高效性"。Blackwell Ultra NVL72和HGX Blackwell Ultra NVL16(8GPU)兩款系統(tǒng)產(chǎn)品也在提升計(jì)算能力和內(nèi)存容量的同時(shí),專為復(fù)雜AI推理任務(wù)做了優(yōu)化。以HGX Blackwell Ultra NVL16為例,相較于上一代Hopper架構(gòu),這款新品在大模型推理速度上提升了11倍。

此前在DeepSeek用極低的算力成本完成模型開發(fā)后,外界就曾擔(dān)憂市場(chǎng)對(duì)英偉達(dá)算力芯片產(chǎn)品的旺盛需求是否會(huì)放緩,英偉達(dá)官方及黃仁勛就曾在多個(gè)場(chǎng)合表示,相比于AI廠商先前將大量算力投資用于AI模型訓(xùn)練上,DeepSeek主要在模型推理運(yùn)用了創(chuàng)新技術(shù),而AI推理依然需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò)。

在AI行業(yè)的“Scaling Law”法則(模型規(guī)模越大,模型越智能)在預(yù)訓(xùn)練環(huán)節(jié)放緩后,推理環(huán)節(jié)將催生更大規(guī)模的算力需求,因此“DeepSeek的出現(xiàn)反而證明市場(chǎng)需要更多AI芯片”。

據(jù)黃仁勛介紹,Blackwell系列,目前已經(jīng)全面投產(chǎn)。“產(chǎn)量驚人,客戶需求驚人,因?yàn)槿斯ぶ悄艹霈F(xiàn)了一個(gè)拐點(diǎn),由于推理人工智能以及推理人工智能系統(tǒng)和智能體系統(tǒng)的訓(xùn)練,人工智能領(lǐng)域必須完成的計(jì)算量大大增加?!?/p>

按照英偉達(dá)“一年一更新”發(fā)布節(jié)奏,黃仁勛演講中預(yù)告了下一代Rubin架構(gòu)兩款產(chǎn)品Rubin GPU、Rubin Ultra GPU的性能信息。

Rubin GPU算力性能將在FP4標(biāo)準(zhǔn)下達(dá)到50P Flops,約是Blackwell Ultra GPU的3.3倍,Rubin Ultra GPU則在相同標(biāo)準(zhǔn)下為100P。兩款新架構(gòu)產(chǎn)品屆時(shí)也將用上HBM4、HBM4E先進(jìn)AI內(nèi)存。搭載Rubin GPU的Vera Rubin NVL144(連接144個(gè)GPU)將于 2026 年下半年推出,Rubin Ultra GPU的Rubin Ultra NVL576(連接576個(gè)GPU)將于2027年下半年推出。

繼Rubin架構(gòu)之后,黃仁勛現(xiàn)場(chǎng)公布下一代GPU架構(gòu)的命名為“Feynman”,取自著名物理學(xué)家理查德?費(fèi)曼(Richard Feynman),F(xiàn)eynman架構(gòu)產(chǎn)品將于2028年發(fā)布。

智能體和機(jī)器人時(shí)代,AI將需要更多芯片

與去年GTC密集發(fā)布各種新產(chǎn)品的節(jié)奏不同,黃仁勛今年在公布新品前,在現(xiàn)場(chǎng)花了更多時(shí)間科普“Agentic AI”的概念,以及AI推理帶來的巨大改變。

在現(xiàn)場(chǎng)展示的AI技術(shù)發(fā)展路線圖中,黃仁勛按照“Generative AI(生成式AI)、Agentic AI(智能體)、Physical AI(具身AI)”三個(gè)階段的進(jìn)化路線,將Agentic AI描述為AI技術(shù)發(fā)展的中間態(tài)。

相比于生成式AI的主要應(yīng)用——語言大模型與聊天機(jī)器人——主要聚焦于生成文本、圖像內(nèi)容,Agentic AI更進(jìn)一步,能夠理解任務(wù)、進(jìn)行復(fù)雜推理、制定計(jì)劃并自主執(zhí)行多步驟操作,目前業(yè)內(nèi)熱議的數(shù)字員工等AI Agent即為相關(guān)應(yīng)用。

圖源:英偉達(dá)

在生成式AI的第一階段,AI行業(yè)的“Scaling Law”法則集中體現(xiàn)在模型訓(xùn)練上,特別是預(yù)訓(xùn)練環(huán)節(jié)(Pre-Training,即從無到有開發(fā)模型的前期訓(xùn)練階段),投入更多的數(shù)據(jù)、更大規(guī)模的算力資源訓(xùn)練出更好的模型,訓(xùn)練規(guī)模越大,模型越智能。

黃仁勛認(rèn)為,從過去一年的行業(yè)發(fā)展進(jìn)程來看,預(yù)訓(xùn)練為主的Scaling Law法則已走入“誤區(qū)”。從今年乃至未來很長一段時(shí)間內(nèi),Agentic AI將代替生成式AI,成為行業(yè)新的發(fā)展方向。由于Agentic AI強(qiáng)調(diào)自主性與復(fù)雜問題解決能力,每一步解決復(fù)雜問題、分解任務(wù)的邏輯思考過程都需要用到“模型推理”,因此推理將成為新階段的核心動(dòng)力。

而從生成式AI發(fā)展到Agentic AI,并不意味著Scaling Law法則失效。相反,由于將應(yīng)用范圍從訓(xùn)練進(jìn)一步擴(kuò)展到推理,不只在預(yù)訓(xùn)練環(huán)節(jié),模型的后訓(xùn)練(Post-Training,指預(yù)訓(xùn)練得到模型后,根據(jù)特定任務(wù)或需求,使用更小規(guī)模、更專注的數(shù)據(jù)集對(duì)模型進(jìn)行進(jìn)一步優(yōu)化訓(xùn)練或微調(diào)的過程)和日常推理的長期思考(Long-Thinking)都要繼續(xù)消耗算力資源,Scaling Law法則對(duì)規(guī)模的要求非但會(huì)變小,相反會(huì)進(jìn)一步擴(kuò)大。

以一個(gè)用戶訪問AI應(yīng)用時(shí)產(chǎn)生的Token來舉例,對(duì)于Agentic AI來說,推理所涉及的任務(wù)更加復(fù)雜,可能需要生成或處理更多Token來完成規(guī)劃和執(zhí)行。同時(shí)隨著更多用戶同時(shí)訪問AI,Token的數(shù)量會(huì)爆炸式增加。對(duì)于大模型來說,每生成一個(gè)Token往往需要數(shù)千億次浮點(diǎn)運(yùn)算,如何在有限時(shí)間內(nèi)盡可能多的生成Token,并快速將推理結(jié)果反饋給用戶,大規(guī)模的算力資源是完成這一切的基礎(chǔ)。

按照現(xiàn)場(chǎng)顯示的效果,Blackwell Ultra NVL72集群在運(yùn)行DeepSeek-R1 671B交互式副本時(shí),只需10秒就可以給出答案,而上一代Hopper架構(gòu)的H100同類產(chǎn)品則需要1分半。

此次大會(huì)上,英偉達(dá)還發(fā)布了一款新型的AI 推理服務(wù)軟件Dynamo。它協(xié)調(diào)和加速數(shù)千個(gè)GPU之間的推理通信,并使用分解服務(wù)將大型語言模型的處理和生成階段分離在不同GPU上。這允許每個(gè)階段根據(jù)其特定需求進(jìn)行獨(dú)立優(yōu)化,并確保最大程度地利用GPU資源。

黃仁勛認(rèn)為,推理所需算力需求規(guī)模增長能“輕松超過去年估計(jì)的100倍”,未來行業(yè)需要更多、性能更強(qiáng)的AI芯片。根據(jù)他的預(yù)測(cè),數(shù)據(jù)中心建設(shè)的投入到2028年將達(dá)到1萬億美元,目前“相當(dāng)確定很快就會(huì)達(dá)到這個(gè)目標(biāo)”。

硅光網(wǎng)絡(luò)交換機(jī)、機(jī)器人模型與量子計(jì)算研究中心

此外,在今年GTC大會(huì)上,英偉達(dá)還將在硅光芯片、機(jī)器人應(yīng)用、量子計(jì)算等領(lǐng)域有進(jìn)一步的探索。

硅光領(lǐng)域,英偉達(dá)最新發(fā)布了NVIDIA Spectrum-X(基于以太網(wǎng),適合兼容更廣泛的企業(yè)網(wǎng)絡(luò))及NVIDIA Quantum-X(基于InfiniBand,偏向?qū)S糜?jì)算集群)硅光網(wǎng)絡(luò)交換機(jī)。

這兩款硅光網(wǎng)絡(luò)交換機(jī)新品是英偉達(dá)首次利用“光電共封裝技術(shù)”(co-packaged optics, CPO)將光通信直接集成到交換機(jī)上,推出的商用化硅光交換機(jī)產(chǎn)品。此前英偉達(dá)的交換機(jī)產(chǎn)品的光通信部分主要為“外掛式”,依賴從Finisar和Lumentum等外部供應(yīng)商采購的標(biāo)準(zhǔn)化模塊。

此次英偉達(dá)的硅光網(wǎng)絡(luò)交換機(jī)新品與臺(tái)積電、Coherent、康寧公司(Corning)、富士康、Lumentum和SENKO等行業(yè)巨頭合作。Quantum-X交換機(jī)預(yù)計(jì)將于今年晚些時(shí)候上市,Spectrum-X交換機(jī)預(yù)計(jì)于2026年通過主流基礎(chǔ)設(shè)施和系統(tǒng)供應(yīng)商推出。

黃仁勛曾經(jīng)用“A工廠”描繪AI時(shí)代超大規(guī)模數(shù)據(jù)中心的未來形態(tài)。隨著AI數(shù)據(jù)工廠規(guī)模的擴(kuò)張,網(wǎng)絡(luò)基礎(chǔ)設(shè)施也需要同步徹底革新。英偉達(dá)希望通過將硅光子技術(shù)直接集成到交換機(jī)中,突破超大規(guī)模和企業(yè)網(wǎng)絡(luò)的傳統(tǒng)限制,為目前萬張、十萬張GPU的數(shù)據(jù)中心向百萬張GPU的AI工廠過渡奠定基礎(chǔ)。

機(jī)器人作為未來“具身AI”(Physical AI)的關(guān)鍵應(yīng)用,英偉達(dá)旗下輔助生成機(jī)器人訓(xùn)練數(shù)據(jù)的物理世界模型Cosmos、人形機(jī)器人基礎(chǔ)模型GROOT N1以及3D實(shí)時(shí)仿真平臺(tái)Omniverse是這一領(lǐng)域的主要產(chǎn)品。

圖源:視覺中國

其中,GROOT N1是通用機(jī)器人基礎(chǔ)模型,英偉達(dá)此次正式宣布已經(jīng)將其開源。GROOT N1模型采用雙系統(tǒng)架構(gòu),靈感來自人類認(rèn)知原理。在視覺語言模型的支持下,一個(gè)系統(tǒng)可以推理其環(huán)境和收到的指令,從而規(guī)劃行動(dòng)。另一個(gè)系統(tǒng)然后將這些計(jì)劃轉(zhuǎn)化為精確、連續(xù)的機(jī)器人動(dòng)作。

除硅光芯片與機(jī)器人應(yīng)用外,在谷歌、微軟相繼在量子計(jì)算芯片領(lǐng)域有重大突破后,量子計(jì)算當(dāng)前成為了硅谷科技巨頭布局未來的一個(gè)熱門方向。英偉達(dá)此次也在GTC大會(huì)上宣布,將在波士頓建設(shè)NVIDIA加速量子研究中心(NVAQC)。據(jù)官方介紹,該中心是一個(gè)以研究為導(dǎo)向的機(jī)構(gòu),將通過尖端技術(shù)推動(dòng)量子計(jì)算架構(gòu)與算法的發(fā)展。

值得關(guān)注的是,去年谷歌發(fā)布的Willow芯片攻克困擾量子計(jì)算研究30年的“量子糾錯(cuò)”難題,市場(chǎng)升溫帶動(dòng)量子計(jì)算概念股上股價(jià)漲,黃仁勛曾在今年1月接受分析師采訪時(shí)給量子計(jì)算的落地“潑了一盆冷水”:要造出“非常有用的量子計(jì)算機(jī)”,可能需要20年。黃的這一評(píng)價(jià)當(dāng)時(shí)導(dǎo)致一眾量子計(jì)算相關(guān)股票應(yīng)聲下跌。

黃仁勛在談及英偉達(dá)成立量子研究中心的目標(biāo)時(shí)提到,量子計(jì)算的實(shí)用化依賴于解決關(guān)鍵技術(shù)挑戰(zhàn),如量子比特噪聲和糾錯(cuò)。而NVAQC的使命是推動(dòng)這些突破:“NVIDIA加速量子研究中心將是突破發(fā)生的地方,以創(chuàng)建大規(guī)模、有用的加速量子超級(jí)計(jì)算機(jī)?!?/p>

對(duì)于市場(chǎng)擔(dān)憂量子計(jì)算顛覆現(xiàn)有計(jì)算工具,以前所未有的計(jì)算速度在密碼學(xué)、隱私數(shù)據(jù)保護(hù)領(lǐng)域形成“量子霸權(quán)”,黃仁勛明確表示,量子計(jì)算不會(huì)單獨(dú)取代現(xiàn)有的計(jì)算技術(shù),而是作為AI計(jì)算能力的補(bǔ)充。未來的量子計(jì)算將成為AI超級(jí)計(jì)算機(jī)的“增強(qiáng)工具”,在藥物開發(fā)、新材料制造等特定高復(fù)雜性領(lǐng)域發(fā)揮作用。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。