正在閱讀:

“再造一個(gè)CUDA”:英偉達(dá)的第二護(hù)城河與“超級(jí)碗”陽(yáng)謀

掃一掃下載界面新聞APP

“再造一個(gè)CUDA”:英偉達(dá)的第二護(hù)城河與“超級(jí)碗”陽(yáng)謀

GTC 2025中暗藏的細(xì)節(jié)與魔鬼。

文|硅谷101 陳茜

英偉達(dá)2025年3月18日的GTC大會(huì)看似平淡,但魔鬼和驚喜都藏在細(xì)節(jié)中。

英偉達(dá)創(chuàng)始人兼CEO黃仁勛發(fā)布的各項(xiàng)更新,包括芯片路線圖,此前已經(jīng)被市場(chǎng)預(yù)期消化。在本次GTC之前,英偉達(dá)股價(jià)已經(jīng)承壓多時(shí),華爾街對(duì)接下來(lái)AI芯片需求的可持續(xù)性存在懷疑。而在整場(chǎng)演講中,黃仁勛也試圖打消外界的疑慮,但在當(dāng)天,英偉達(dá)股價(jià)仍然下跌3.3%。

我們剛聽(tīng)完黃仁勛的Keynote演講之后,第一反應(yīng)也覺(jué)得好像不如去年那么震撼和精彩,再加上演講中間PPT和流程還出現(xiàn)了各種小錯(cuò)誤,讓整個(gè)演講不如去年那么完美。

但結(jié)束之后我們跟一些機(jī)構(gòu)投資人和芯片從業(yè)者深聊的時(shí)候發(fā)現(xiàn),很多人對(duì)英偉達(dá)的發(fā)展路線和布局還是非??春?,認(rèn)為英偉達(dá)正繼續(xù)和競(jìng)爭(zhēng)對(duì)手們甩開(kāi)差距,雖然在宏觀層面上股價(jià)確實(shí)在近期受到多方面因素承壓。

這篇文章我們就和嘉賓們一起來(lái)聊聊在此次GTC上的觀察,并試圖來(lái)回答以下幾個(gè)問(wèn)題:

1.英偉達(dá)如何繼續(xù)擴(kuò)寬它的護(hù)城河?

2.在AI市場(chǎng)邁入“推理inferencing”階段,英偉達(dá)還能是市場(chǎng)上獨(dú)占鰲頭的贏家嗎?AMD、Groq、ASIC芯片還有谷歌的TPU等等玩家有機(jī)會(huì)翻盤(pán)嗎?

3.英偉達(dá)如何布局全市場(chǎng)生態(tài),讓所謂的“每個(gè)人都成為贏家”?

4.對(duì)于目前承壓的股價(jià),英偉達(dá)的下一個(gè)故事是什么?是機(jī)器人、還是是量子計(jì)算呢?

01、橫向拓展與縱向拓展

黃仁勛在Keynote演講中數(shù)次強(qiáng)調(diào):英偉達(dá)不是單張GPU芯片的敘事,而是所謂“Scale Up and Scale Out”更宏大的敘事。

黃仁勛說(shuō)的Scale Up指的是“縱向擴(kuò)展”,也就是通過(guò)NVLink通信互聯(lián)技術(shù)將單個(gè)系統(tǒng)的功能推到極致。

而Scale Out指的是“橫向擴(kuò)展”,也就是通過(guò)這次發(fā)布的硅光技術(shù)CPO(Co-packaged Optics,光電一體封裝交換機(jī))等革命性技術(shù)更新,來(lái)進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)中心(data center)的巨大算力集群的快速擴(kuò)張和提效。

而在AI邁入“推理”時(shí)代而對(duì)算力愈加渴望之際,英偉達(dá)“縱向”和“橫向”的擴(kuò)展將打造新一代AI強(qiáng)大的算力生態(tài)和架構(gòu),這就是黃仁勛想講的新故事。

任揚(yáng)

濟(jì)容投資聯(lián)合創(chuàng)始人:

老黃幾年前其實(shí)也在反復(fù)強(qiáng)調(diào)這個(gè)概念:以后計(jì)算單元不是GPU,甚至不是服務(wù)器,而是整個(gè)數(shù)據(jù)中心是一個(gè)計(jì)算單元。這是黃仁勛一直在試圖去推動(dòng)的方向吧。

Chapter 1.1 Scale Up

在講縱向擴(kuò)展前,我們先聊聊黃仁勛公布的之后幾代芯片的路線圖。

在Keynote中,黃仁勛給出了非常清晰的英偉達(dá)長(zhǎng)期路線圖,包括從當(dāng)前的Blackwell到未來(lái)的Blackwell Ultra、Vera Rubin、Rubin Ultra,最終到2028年的Feynman架構(gòu)。

每一代更新的芯片架構(gòu)名字最后的數(shù)字,代表的是GPU的芯片數(shù)量,而每一個(gè)架構(gòu)代表的是一個(gè)機(jī)架的整個(gè)性能。這個(gè)新命名方式也印證了黃仁勛想強(qiáng)調(diào)的敘事,已經(jīng)從單個(gè)GPU變成了數(shù)據(jù)中心的算力集群系統(tǒng)。

2025年下半年出貨的Blackwell Ultra NVL72連接了72塊Blackwell Ultra GPU,它的性能提升是前代GB200的1.5倍(這里要注意一下,黃仁勛在Keynote中又重新定義了“黃氏算法”:從Rubin開(kāi)始,GPU數(shù)量是根據(jù)“封裝中的GPU數(shù)量”,而不是“封裝數(shù)量”來(lái)計(jì)算的;所以按新的定義,Blackwell Ultra NVL72算是有144個(gè)GPU)。

以天文學(xué)家Vera Rubin命名的新一代GPU將于2026年下半年推出。Vera Rubin NVLink144的性能將是Blackwell Ultra(GB300) NVL72的3.3倍。

英偉達(dá)預(yù)計(jì)Vera Rubin之后,下一代Rubin Ultra NVL576將于2027年下半年推出,其性能將是Blackwell Ultra(GB300) NVL72的14倍。

Rubin之后的架構(gòu)代號(hào)為“Feynman”,以理論物理學(xué)家查德 費(fèi)曼命名,這已經(jīng)是2028年之后的故事了。

芯片從業(yè)人士告訴我們,英偉達(dá)的路線圖和性能提升幅度并沒(méi)有出乎外界的預(yù)期范圍,但黃仁勛傳達(dá)出的信號(hào)仍然非常積極,這就是:英偉達(dá)正在以及在未來(lái)幾年都會(huì)穩(wěn)健地給客戶(hù)交付更好性能的產(chǎn)品。

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

其實(shí)在我們芯片行業(yè),以英偉達(dá)這樣的節(jié)奏發(fā)布產(chǎn)品,已經(jīng)是執(zhí)行力非常強(qiáng)了。一般芯片公司從一款產(chǎn)品到下一款產(chǎn)品,芯片研發(fā)可能需要兩年時(shí)間,再加上軟件適配,可能就需要3到4年才能推出下一代芯片和系統(tǒng),所以英偉達(dá)的這個(gè)節(jié)奏已經(jīng)非常厲害。

但這也會(huì)讓公眾的期望更高。比如去年年底的時(shí)候,Blackwell出現(xiàn)了散熱和良率的問(wèn)題,股市上的反應(yīng)是非常強(qiáng)烈的。但對(duì)我們業(yè)內(nèi)人士來(lái)說(shuō),這些問(wèn)題是非常正常的。重新mask tap out(掩膜流片),再修正就可以了。

任揚(yáng)

濟(jì)容投資聯(lián)合創(chuàng)始人:

我覺(jué)得不管從產(chǎn)品的規(guī)劃、定義,到最后的落地執(zhí)行,英偉達(dá)都是非常穩(wěn)健、且領(lǐng)先對(duì)手的。但是如果和投資人的預(yù)期相比,確實(shí)沒(méi)有驚喜,也沒(méi)有意外。

以上就是黃仁勛所說(shuō)的Scale Up(縱向拓展)的部分,也是嘉賓口中的與預(yù)期相同、沒(méi)有驚喜的部分。接下來(lái)我們聊聊讓大家驚喜的部分,也就是Scale Out(橫向擴(kuò)展)的布局。

Chapter 1.2 Scale Out

最能表現(xiàn)黃仁勛對(duì)“規(guī)模擴(kuò)展”野心的,是采用集成硅光技術(shù)的NVIDIA CPO(Co-packaged Optics,光電一體封裝交換機(jī))。

雖然老黃在演講中展示的時(shí)候這些黃色的線被纏在了一起,弄了好久才弄開(kāi),但也是挺有話(huà)題度的,讓大家對(duì)這幾根線更好奇了。

接下來(lái)我們聊聊,這幾根線是怎么運(yùn)作的?如何能讓英偉達(dá)的數(shù)據(jù)中心縱向擴(kuò)展呢?

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

現(xiàn)在所有的Blackwell的機(jī)器,還是基于銅的互聯(lián)(Copper),之后會(huì)轉(zhuǎn)向光的互聯(lián)。

按照英偉達(dá)的說(shuō)法,CPO交換機(jī)的創(chuàng)新技術(shù),是將插拔式的光模塊替換為與ASIC(專(zhuān)用集成電路)一體化封裝的硅光器件。

與傳統(tǒng)網(wǎng)絡(luò)相比,可將現(xiàn)有能效提高3.5倍,網(wǎng)絡(luò)可靠性提高10倍,部署時(shí)間縮短1.3倍。這能極大程度增強(qiáng)英偉達(dá)數(shù)據(jù)中心的互聯(lián)性能,對(duì)于實(shí)現(xiàn)未來(lái)百萬(wàn)級(jí)GPU的AI工廠的大規(guī)模部署來(lái)說(shuō)至關(guān)重要。

匿名采訪

早期CPO光學(xué)科研人員:

OpenAI去年訓(xùn)練4o的時(shí)候經(jīng)常會(huì)訓(xùn)練失敗,因?yàn)楫?dāng)時(shí)的Frontier model(前沿模型)已經(jīng)基本窮盡了大部分的數(shù)據(jù),所以訓(xùn)練失敗的次數(shù)很多。訓(xùn)練GPT-5失敗的次數(shù)也非常多,因?yàn)槭〉拇螖?shù)更多了,所以做需要做更多實(shí)驗(yàn),而且每次實(shí)驗(yàn)的時(shí)間要盡可能短,公司是不能忍受一個(gè)實(shí)驗(yàn)做兩個(gè)禮拜沒(méi)消息的。如何能縮短時(shí)間?那就是提高通訊的速度。

除了速度快之外,CPO交換機(jī)也能在能耗和價(jià)格上帶來(lái)很多成本的節(jié)省。在GTC現(xiàn)場(chǎng),英偉達(dá)的工作人員展示了CPO實(shí)物是如何運(yùn)作的。

Brian Sparks

英偉達(dá)工作人員:

這就是我們的新產(chǎn)品:Quantum-X光子交換機(jī)。 這款交換機(jī)采用了ASIC(專(zhuān)用集成電路),也是我們首次能夠?qū)崿F(xiàn)硅光子技術(shù)的CPO(光電混合封裝)。過(guò)去需要一個(gè)光纖收發(fā)器用于連接網(wǎng)卡。但現(xiàn)在,光信號(hào)可以直接進(jìn)入交換機(jī)的接口,不再需要光纖收發(fā)器。這樣做有兩個(gè)好處:首先降低了成本,因?yàn)楣饫w收發(fā)器價(jià)格相當(dāng)昂貴;其次減少了功耗,因?yàn)閭鹘y(tǒng)光纖收發(fā)器大約消耗30到33瓦的功率,而我們現(xiàn)在能夠?qū)⒐慕档偷?瓦。

我們的采訪嘉賓認(rèn)為,訓(xùn)練側(cè)客戶(hù)在意的是時(shí)間,推理側(cè)客戶(hù)在意的是成本。而CPO技術(shù)能在一定程度上同時(shí)這兩種需求,提高訓(xùn)練與推理的效率。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

你如果只有一個(gè)芯片,把它打造得再厲害也是沒(méi)有用的。本質(zhì)原因是我們現(xiàn)在做推理、訓(xùn)練,都是用幾萬(wàn)個(gè)卡在一起的集群,比如Grok可能就一下就用 20 萬(wàn)個(gè)卡一起訓(xùn)練。重要的是怎么能讓幾萬(wàn)個(gè)、十萬(wàn)個(gè) 芯片高效地協(xié)同運(yùn)作。在這個(gè)互聯(lián)領(lǐng)域英偉達(dá)又再一次地領(lǐng)先了全球,因?yàn)樗蠧PO,它的機(jī)柜上有各種各樣的新花樣。所以我覺(jué)得從長(zhǎng)線來(lái)看,英偉達(dá)在推理集群領(lǐng)域的優(yōu)勢(shì)也是更明顯的。

Brian Sparks

英偉達(dá)工作人員:

當(dāng)進(jìn)行推理時(shí)需要大量的計(jì)算資源,需要更多的計(jì)算能力,因此網(wǎng)絡(luò)需要具備盡可能高的帶寬,能夠在每個(gè)端口上提供更多的性能,同時(shí)保持極低的延遲。通過(guò)去掉光纖收發(fā)器,就能離這個(gè)目標(biāo)更進(jìn)一步,并能減少功耗。

Chapter 1.3 CPU發(fā)展史和早期八卦

關(guān)于CPO,我們?cè)诓稍L期間還挖出一點(diǎn)點(diǎn)小八卦:黃仁勛在Keynote期間說(shuō)CPO是他們發(fā)明的,但光學(xué)工程師們可能會(huì)有一些不同的意見(jiàn)。

我們采訪了非常早期的硅光技術(shù)CPO的研究者和業(yè)內(nèi)從業(yè)者,他們表示,CPO這個(gè)技術(shù)從2000年左右在業(yè)界就已經(jīng)開(kāi)始研究了,而最開(kāi)始主導(dǎo)這個(gè)技術(shù)的是英特爾。

匿名采訪

早期CPO光學(xué)科研人員:

當(dāng)時(shí)我們提出來(lái)的這個(gè)技術(shù)叫做 Monolistic Integrated Phontonic IC(單片集成光子集成電路),那時(shí)候還不叫 Co-packaged Optics 。當(dāng)時(shí)做這個(gè)事情是因?yàn)橛⑻貭枌?duì)Big Data(大數(shù)據(jù))很感興趣。

這位資深的光學(xué)研究者告訴我們,大數(shù)據(jù)業(yè)務(wù)的驅(qū)動(dòng)下,英特爾是20年前的硅光子學(xué)(Silicon Photonics)最大的研究支持機(jī)構(gòu)。而之后發(fā)展出的CPO(Co-packaged optics)技術(shù)最早開(kāi)始研發(fā)是為了解決光電系統(tǒng)短距離通信,也是光纖通信研究發(fā)展的必然結(jié)果。

而在行業(yè)發(fā)展過(guò)程中,除了英特爾,其它小型企業(yè)也在嘗試研發(fā)這項(xiàng)技術(shù)。但硅光子學(xué)技術(shù)的研發(fā)非常耗錢(qián)耗力,需要先有市場(chǎng)需求,才能倒逼技術(shù)研發(fā)。

以上是Nathan評(píng)測(cè)的一部分節(jié)選,想看完整版的觀眾可以收看硅谷101視頻或Nathan的微信視頻號(hào)“硅谷AI領(lǐng)航”。

匿名采訪

早期CPO光學(xué)科研人員:

最開(kāi)始的時(shí)候,CPO應(yīng)用是大數(shù)據(jù),就是數(shù)據(jù)中心之間的通信。但數(shù)據(jù)中心之間的通信不需要那么高的碼率,100G之內(nèi)都不需要CPO。直到2012年,當(dāng)時(shí)Apache Spark(開(kāi)源集群運(yùn)算框架)出現(xiàn)了,而且Snowflake開(kāi)始快速發(fā)展,在這一年數(shù)據(jù)庫(kù)開(kāi)始上云了。這就意味著大量數(shù)據(jù)存在一個(gè)地方,而讀取和使用在另外一個(gè)地方,你需要做query(查詢(xún)),數(shù)據(jù)的移動(dòng)就變得非常得復(fù)雜,量也變得非常大。這時(shí)100G在數(shù)據(jù)中心之間的溝通已經(jīng)不夠用了,所以從2012年開(kāi)始,Google提升到400G,到2020年疫情之前提到了800G。

如果現(xiàn)在同樣大的connector(連接器)要做 800G ,里面的集成度就要高很多。當(dāng)集成度高了后,光纖系統(tǒng)設(shè)計(jì)就非常復(fù)雜。需要解決功耗、一致性等等問(wèn)題。但這兩個(gè)問(wèn)題解決了以后,良率基本上是0。從100G到200G、 200G到400G、 400G到800G,每一代一出來(lái)良率都是0。而研發(fā)費(fèi)用是非常貴的,基本是5個(gè)億以上。

以前沒(méi)有新的應(yīng)用就不會(huì)去研發(fā),現(xiàn)在有了新的應(yīng)用,數(shù)據(jù)倉(cāng)庫(kù)出現(xiàn)了,所以開(kāi)始研發(fā)。在400G發(fā)展到800G的時(shí)候,Meta和Google的報(bào)告中已經(jīng)開(kāi)始廣泛地使用POP(package on package)和PIP(package in package)這兩個(gè)詞,其實(shí)跟今天Co-package的概念基本上很接近了。

為什么硅光子技術(shù)的良率會(huì)這么低,需要花費(fèi)的研發(fā)費(fèi)用又這么高呢?

Cathy

光學(xué)工程師:

我們?nèi)说念^發(fā)的尺寸大概是一個(gè)0.01平方毫米,已經(jīng)是一個(gè)非常小的尺寸了。但在現(xiàn)實(shí)使用的Silicon Photonics Engine(硅光子引擎)里面,Microring resonator(微環(huán)諧振器)的尺寸比人的頭發(fā)還要再小十倍。

在制作的時(shí)候,哪怕是用非常先進(jìn)的工藝,也很容易造成納米級(jí)別的誤差。而且即使是納米級(jí)別的誤差,都會(huì)使得通過(guò)的光的波長(zhǎng)有所誤差。所以稍微一個(gè)不留神,就會(huì)導(dǎo)致本來(lái)該通過(guò)的光完全徹底通不過(guò)。

除此之外,我們需要精細(xì)到納米級(jí)別的加工精度的控制,降到一個(gè)納米基度的級(jí)別是非常困難的一件事情。

另外因?yàn)樾枰刂茰囟?,所以每一個(gè)Ring resonator(環(huán)形諧振器)都有自己的一個(gè)Heating Pad(加熱墊)。然后加熱墊連上一個(gè)精密的、有feedback(反饋)的溫度調(diào)控。而同時(shí)溫度調(diào)控又是一個(gè)時(shí)間的參數(shù),因?yàn)楣獾耐ㄟ^(guò)速度非常快,所以需要一個(gè)非常精確、非常智能的溫度控制系統(tǒng)。而且每一個(gè)小的Micro resonator(微型諧振器)都需要這樣去調(diào)控,可以想象在一整個(gè)package(套件)里面有這么多的激光器,就需要非常復(fù)雜的一個(gè)溫度調(diào)控的算法。最終這一切加起來(lái)導(dǎo)致的效果就是,硅基光子的良率非常的低。

一位多年的從業(yè)者M(jìn)ehdi Asghari和我提到過(guò)一句話(huà):在電子制造之中,你不用提良率,因?yàn)榱悸识挤浅8?,?9.999…(無(wú)數(shù)個(gè)9),只有良率高了大家才能賺錢(qián)。但在硅基光子的行業(yè)中也不用提良率,因?yàn)榇蠹叶贾懒悸史浅5?,稍微不小心就?huì)導(dǎo)致良率崩盤(pán)。正是因?yàn)樾枰鞣N精確的控制,會(huì)讓良率非常低,這也導(dǎo)致了硅基光子的成本下不來(lái)。所以必須有個(gè)行業(yè),既需要快速、精確的控制,又能接受高成本,才能讓硅基光子學(xué)發(fā)展起來(lái)。

陳茜

硅谷101視頻主理人:

后來(lái)是怎么把良率給提上去的呢?

Cathy

光學(xué)工程師:

行業(yè)一點(diǎn)一點(diǎn)的磨合。英特爾在2000年就開(kāi)始做了,在這方面像行業(yè)的先驅(qū)。雖然老黃在硅基光子學(xué)并不是最早的,但是老黃為大家找到了非常好的應(yīng)用,能讓這個(gè)技術(shù)應(yīng)用在數(shù)據(jù)中心、AI大模型里面,有了實(shí)在的用武之地。

根據(jù)嘉賓的說(shuō)法,英偉達(dá)的光學(xué)通信系統(tǒng)技術(shù),來(lái)自2019年收購(gòu)的以色列芯片廠商Mellanox,而Mellanox的技術(shù)又源自于2013年收購(gòu)硅光子公司Kotura。

以上我們大概講了講CPO技術(shù)的發(fā)展史,和業(yè)內(nèi)從業(yè)者對(duì)老黃說(shuō)“CPO是英偉達(dá)發(fā)明的”一點(diǎn)challenge(挑戰(zhàn))。 也歡迎如果有硅光子產(chǎn)業(yè)的從業(yè)人員給我們留言說(shuō)說(shuō)你們對(duì)這個(gè)技術(shù)發(fā)展的八卦和故事。

不過(guò),正是因?yàn)辄S仁勛看到了CPO在AI數(shù)據(jù)中心大規(guī)模的應(yīng)用,才又一次通過(guò)市場(chǎng)應(yīng)用來(lái)支持技術(shù)研發(fā),將這個(gè)技術(shù)帶到了大眾的面前。

匿名采訪

早期CPO光學(xué)科研人員:

如果LLM(大語(yǔ)言模型)只是千億美元級(jí)的市場(chǎng)的話(huà),老黃根本就不會(huì)干這個(gè)事,因?yàn)檠邪l(fā)太貴了。但現(xiàn)在LLM到了萬(wàn)億美元級(jí)的市場(chǎng),老黃就認(rèn)為有市場(chǎng)了,就跟我之前說(shuō)的800G數(shù)據(jù)倉(cāng)庫(kù)是一樣的。既然LLM來(lái)了(市場(chǎng)來(lái)了),且這是一個(gè)不違反物理定律的事情,那只要錢(qián)堆得足夠多,不違反物理定律的事情都是能做成的。

雖然CPO技術(shù)不是英偉達(dá)獨(dú)家的,很多大公司都掌握了這個(gè)技術(shù)。但我們的嘉賓認(rèn)為,英偉達(dá)在內(nèi)部大力推進(jìn)CPO技術(shù)整合到生態(tài)中,將CPO做到競(jìng)品roadmap(路線圖)的數(shù)倍,用快速的執(zhí)行和研發(fā)效率,進(jìn)一步加深了生態(tài)的護(hù)城河和壁壘。

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

英偉達(dá)在光這塊其實(shí)投入也很大,招了很多人,也從各大公司都挖了不少人,會(huì)進(jìn)一步加深壁壘。

因?yàn)槠鋵?shí)有很多做硅光的公司可以做CPO的Module(模塊),但是如果要跟AI芯片合在一起做,那一定要找這些AI芯片出貨量最大的廠去合作。因?yàn)檫@里面涉及到芯片跟硅光模塊codesign(共同設(shè)計(jì)) 的問(wèn)題。而英偉達(dá)是in house(內(nèi)部研發(fā))的話(huà),相比其他硅光公司跟AMD、Sarabas、Groq合作,會(huì)有很多的know-how(實(shí)際知識(shí)和性能)的優(yōu)勢(shì)。

02、第二個(gè)CUDA

我們?cè)賮?lái)說(shuō)說(shuō)英偉達(dá)在軟件生態(tài)上的另外一個(gè)重要更新:Dynamo。這被我們的嘉賓認(rèn)為是英偉達(dá)想在推理側(cè)造就的“第二個(gè)CUDA”。

黃仁勛

英偉達(dá)創(chuàng)始人兼CEO:

Blackwell NVLink72搭配Dynamo,使AI工廠的性能相比Hopper提升40倍。在未來(lái)十年,隨著AI的橫向擴(kuò)展,推理將成為其最重要的工作內(nèi)容之一。

黃仁勛宣布在軟件方面,英偉達(dá)推出了Nvidia Dynamo。這是一款開(kāi)源的AI推理服務(wù)軟件,被視為Nvidia Triton推理服務(wù)器的“接班人”,旨在簡(jiǎn)化推理部署和擴(kuò)展。而它的設(shè)計(jì)目標(biāo)也很明確:以更高效和更低的成本來(lái)加速并擴(kuò)展AI模型的推理部署。

簡(jiǎn)單來(lái)說(shuō),Dynamo就像AI工廠中的“大腦和中樞”,負(fù)責(zé)協(xié)調(diào)成百上千張GPU的協(xié)同工作,確保每一次AI模型的推理請(qǐng)求都能用最少的資源、最快的速度得到處理,從而讓部署這些模型的企業(yè)花更少的錢(qián)去辦更多的事。

一些美股分析師認(rèn)為:如果說(shuō)CUDA是英偉達(dá)最強(qiáng)大的軟件生態(tài)護(hù)城河,那么Dynamo就是英偉達(dá)在推理側(cè)想搭建的第二道護(hù)城河。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

英偉達(dá)60%以上的護(hù)城河都來(lái)自于軟件。這一次推出的Dynamo,相當(dāng)于是在大模型AI領(lǐng)域又再造了一個(gè)CUDA。因?yàn)镈ynamo是能給推理降本的,而且還開(kāi)源了。Dynamo早期在未來(lái)新方向的布局上和CUDA是一樣的;從長(zhǎng)線來(lái)說(shuō),可能英偉達(dá)能再造一個(gè)CUDA,這對(duì)于它的在AI這個(gè)領(lǐng)域的護(hù)城河的幫助是非常強(qiáng)的。這是我比較看好的一個(gè)更新。

Dynamo帶來(lái)的最大亮點(diǎn)之一,就是大幅提升了推理性能和資源利用率,同時(shí)降低了單位推理任務(wù)的成本。

做一個(gè)類(lèi)比,Dynamo就像一家餐廳的智能調(diào)度經(jīng)理,在忙時(shí)能迅速增派更多廚師(也就是GPU)上灶,在閑時(shí)又讓多余的廚師休息,不讓人力閑置,從而做到高效又節(jié)約。

根據(jù)英偉達(dá)官網(wǎng),Dynamo包含了四項(xiàng)關(guān)鍵創(chuàng)新,來(lái)降低推理服務(wù)成本并改善用戶(hù)體驗(yàn)。

1.GPU 規(guī)劃器 (GPU Planner):這是一種規(guī)劃引擎,可動(dòng)態(tài)地添加和移除GPU,以適應(yīng)不斷變化的用戶(hù)需求,從而避免GPU配置過(guò)度或不足。這就像我們剛才說(shuō)的廚房遇到就餐高峰的時(shí)候,就加派廚師人手、加開(kāi)新的廚房,而客人少的時(shí)候就關(guān)掉部分廚房,Dynamo希望確保GPU不閑著也不堵車(chē),始終在最佳負(fù)載下運(yùn)行。這樣每一塊 GPU 都被充分利用,集群整體吞吐量隨之提高。

2.智能路由器(Smart Router):這是一個(gè)具備大語(yǔ)言模型(LLM) 感知能力的路由器,它可以在大型 GPU 集群中引導(dǎo)請(qǐng)求的流向,從而最大程度減少因重復(fù)或重疊請(qǐng)求,而導(dǎo)致的代價(jià)高昂的GPU重復(fù)計(jì)算,釋放出GPU資源以響應(yīng)新的請(qǐng)求。這有點(diǎn)像客服中心里把老客戶(hù)直接轉(zhuǎn)接給之前服務(wù)過(guò)他的座席員,因?yàn)槟俏蛔瘑T已經(jīng)有客戶(hù)的記錄(緩存),可以免去重復(fù)詢(xún)問(wèn),更快給出回答。而Dynamo正是利用這種機(jī)制,將過(guò)往推理中產(chǎn)生并存儲(chǔ)在顯存里的“知識(shí)” (KV緩存) 在潛在的數(shù)千塊 GPU 間建立索引映射,新請(qǐng)求來(lái)了就路由到握有相關(guān)緩存的 GPU 上。這樣一來(lái),大量重復(fù)的中間計(jì)算被省略,讓GPU 算力主要服務(wù)新的獨(dú)立請(qǐng)求。

3.低延遲通信庫(kù)(Low-Latency Communication Library):這個(gè)推理優(yōu)化庫(kù)支持先進(jìn)的GPU到GPU通信,并簡(jiǎn)化異構(gòu)設(shè)備之間的復(fù)雜數(shù)據(jù)交換,從而加速數(shù)據(jù)傳輸。

4.顯存管理器(Memory Manager):這是一種可在不影響用戶(hù)體驗(yàn)的情況下,以智能的方式在低成本顯存和存儲(chǔ)設(shè)備上,卸載及重新加載推理數(shù)據(jù)的引擎。這類(lèi)似于把不常用的工具先放入倉(cāng)庫(kù),需要時(shí)再拿出來(lái),留出昂貴的工作臺(tái)空間(高性能顯存)給當(dāng)前最緊要的工作。這種分層存儲(chǔ)和快速調(diào)取的策略,讓GPU顯存的利用更高效,推理成本能隨之下降。

而有了以上的這些優(yōu)化路徑,黃仁勛想在AI逐漸轉(zhuǎn)向推理時(shí)代之際,讓英偉達(dá)依然保持AI芯片的霸主地位。

根據(jù)英偉達(dá)的官方數(shù)據(jù),在相同數(shù)量的GPU 下,使用NVIDIA Hopper架構(gòu)的GPU跑的Llama大模型,在采用Dynamo后的整體推理性能和產(chǎn)生的結(jié)果數(shù)量直接翻倍,在由GB200 NVL72機(jī)架組成的大型集群上運(yùn)行DeepSeek-R1模型時(shí),Dynamo讓每張 GPU每秒能生成的token數(shù)量提升了超過(guò)30倍。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

英偉達(dá)在這條路上走得比其他人越來(lái)越遠(yuǎn)了,所以我覺(jué)得它傳遞的Key Message(重要信息) 就是all in推理。它把所有的精力都花在推理這條線上,然后讓其他人追不上它。

在今年的Keynote中,老黃的名句也變了:從“The more you buy, the more you save”(買(mǎi)得越多,省得越多),變成了“The more you buy, the more you make”(買(mǎi)得越多,賺得越多)。

這意味著英偉達(dá)的AI數(shù)據(jù)中心已經(jīng)準(zhǔn)備好服務(wù)推理側(cè)的客戶(hù),幫助客戶(hù)省錢(qián)提效。也意味著,英偉達(dá)想在推理側(cè)繼續(xù)成為算力霸主。

03、數(shù)據(jù)中心基建

要配合這樣更大規(guī)模集群的建設(shè),相關(guān)的數(shù)據(jù)中心基建和上下游也需要隨之更新了。

上文我們提到過(guò),芯片架構(gòu)的取名方式更新,代表著黃仁勛對(duì)“集群”生態(tài)的強(qiáng)調(diào),而非單芯片。而對(duì)應(yīng)的,數(shù)據(jù)中心中的機(jī)架架構(gòu)也將升級(jí)為“Kyber”,通過(guò)計(jì)算托盤(pán)旋轉(zhuǎn)90度,從而實(shí)現(xiàn)更高的機(jī)架密度。

Kyber 現(xiàn)場(chǎng)展示

這個(gè)是我們未來(lái)的Kyber Generation,是下一代產(chǎn)品。這就是一個(gè)72個(gè)GPU的GB200,總共有288個(gè)GPU(72*4) 。

除了機(jī)架的更新之外,整個(gè)數(shù)據(jù)中心的制冷、供電也都需要為新一代的芯片升級(jí)。

Mark Luxford

Vertiv工作人員:

正如黃仁勛在主題演講中宣布的,我們將推出Vera Rubin和Vera Rubin Ultra(配套基建設(shè)施)。我們平時(shí)與英偉達(dá)的合作非常緊密,我個(gè)人每周與他們溝通四次,來(lái)共同制定了這代產(chǎn)品的參考設(shè)計(jì)。

每代產(chǎn)品都這意味著需要更高功率,會(huì)需要更強(qiáng)的冷卻能力,我們正在響應(yīng)這一需求,同時(shí)確保系統(tǒng)架構(gòu)和冷卻管道能夠正常運(yùn)行,CDU(冷卻分配單元)能夠擴(kuò)展以滿(mǎn)足新的需求。就比如我們已經(jīng)把CDU從1兆瓦升級(jí)到了2.3兆瓦,這將非常適合Vera Rubin Ultra,能毫無(wú)壓力地處理600千瓦功率的機(jī)架。

這只是系統(tǒng)的一部分,我們還需要重新設(shè)計(jì)風(fēng)冷系統(tǒng)。我們會(huì)在機(jī)架級(jí)別的服務(wù)器中提取熱量,并通過(guò)CDU與設(shè)施電路進(jìn)行熱量交換。然后通過(guò)冷凍機(jī)、冷卻塔、干式冷卻器甚至通過(guò)熱泵將熱量排放到空氣或大氣中,或者將其用于城市供暖等用途。

硅谷101真正密切關(guān)注著數(shù)據(jù)中心的基建、電力系統(tǒng)、上下游供應(yīng)鏈等方向,未來(lái)會(huì)更深度地聊聊。

04、推理時(shí)代:群雄逐鹿還是單一霸主?

在AI訓(xùn)練側(cè),英偉達(dá)是絕對(duì)的霸主地位,但在AI進(jìn)入推理側(cè)之際,AMD、Groq、谷歌TPU還有ASIC這些玩家有機(jī)會(huì)分掉英偉達(dá)的蛋糕嗎?

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

在2023年的時(shí)候,我們請(qǐng)黃教主到華美半導(dǎo)體協(xié)會(huì),我當(dāng)時(shí)還挑戰(zhàn)性地問(wèn)了一個(gè)問(wèn)題。因?yàn)槲易约鹤鯝I芯片很多年,我就問(wèn)他:GPU架構(gòu)在很多應(yīng)用場(chǎng)景下的效率其實(shí)不高,而我們?cè)谧龈鞣N定制的AI芯片,比如稀疏化的(Sparsity)、基于RISC-V的,或者像Cerebras這種基于wafer-scaling(晶圓微縮)的大芯片等,那我們是不是還有機(jī)會(huì)?老黃對(duì)于我這個(gè)問(wèn)題的回答是:“大家都有機(jī)會(huì),但是你們的機(jī)會(huì)不大?!?/p>

在我們采訪的嘉賓中,無(wú)論是投資人、還是芯片領(lǐng)域的人,對(duì)于“大家都有機(jī)會(huì),但機(jī)會(huì)不大”這個(gè)結(jié)論都基本贊同。

原因是英偉達(dá)目前的生態(tài)已經(jīng)太完整,護(hù)城河已經(jīng)太高了,不僅僅是單個(gè)GPU的性能,而是整個(gè)大集群的高效聯(lián)通,以及CUDA軟件層面的優(yōu)化和支持。并且如我們上文所說(shuō)的,英偉達(dá)在領(lǐng)先對(duì)手的情況下,還在不停地加固新的護(hù)城河。

比如說(shuō)大家非常關(guān)注的“千年老二”AMD,一直沒(méi)有能在AI GPU這方面取得突破性的市場(chǎng)份額,在過(guò)去一年,股價(jià)也下滑了超過(guò)40%。歸根結(jié)底,還是軟件方面追趕不上英偉達(dá)。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

AMD的MI300發(fā)的時(shí)候,對(duì)標(biāo)的是英偉達(dá)的H100、H200。H100的內(nèi)存是80G,但MI300直接是128G;MI350是192G,英偉達(dá)的B卡才190G。AMD不僅卡的內(nèi)存高,而且還比英偉達(dá)便宜40%。雖然它參數(shù)看起來(lái)都很厲害,但我去測(cè)試的時(shí)候發(fā)現(xiàn),AMD的實(shí)際的性能遠(yuǎn)低于它寫(xiě)的參數(shù)。

原因有兩個(gè):第一,真的去開(kāi)發(fā)、測(cè)試ROCm(AMD的軟件,CUDA的對(duì)標(biāo)品)的時(shí)候,軟件全是bug(故障),根本就跑不通模型,推不出來(lái)。第二,AMD目前做得比較成熟的就是8張卡互聯(lián),我都沒(méi)見(jiàn)到過(guò)64個(gè)卡互聯(lián)。但英偉達(dá)在2027年都要576個(gè)卡互聯(lián)了,這之間的差距已經(jīng)沒(méi)辦法去彌補(bǔ)了。

更何況英偉達(dá)有NV Switch,AMD是沒(méi)有相應(yīng)的芯片的,沒(méi)有做出類(lèi)似成型的東西。AMD雖然有替代NVLink的東西,但是它穩(wěn)定的效率是NVLink的二分之一。而沒(méi)有NV Switch它又做不了集群,只能8個(gè)卡互聯(lián),所以我覺(jué)得在互聯(lián)的差距更大,更趕不上。

但并不是說(shuō)AMD在一些特定的市場(chǎng)沒(méi)有機(jī)會(huì)。二級(jí)市場(chǎng)投資人們認(rèn)為,客戶(hù)們不可能接受一家獨(dú)大,一定會(huì)給予AMD和其它芯片廠商一些機(jī)會(huì)。但在端模型起來(lái)之前,最大的份額可能依然會(huì)被英偉達(dá)所占據(jù)。

而至于ASIC這樣的專(zhuān)用集成電路,雖然也會(huì)有它們特定的市場(chǎng),但可能也占據(jù)不了太多英偉達(dá)的份額。

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

AMD在大力推AI PC,包括也在推它的GPU。但是它推的方式,可能是去跟一些大模型的廠商直接合作,比如說(shuō)某一個(gè)大模型在它這個(gè)場(chǎng)景下用得很好,而且這個(gè)應(yīng)用場(chǎng)景又非常廣,那在這種情況下也是有機(jī)會(huì)的。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

AMD的故事是在三到五年以后,當(dāng)端側(cè)的東西都起來(lái)了,C端的應(yīng)用大模型的成本已經(jīng)非常低的時(shí)候,比如一個(gè)電腦、一個(gè)GPU也可以去訓(xùn)練大模型、做AI的時(shí)候。可以這么理解,在GPU這個(gè)領(lǐng)域,除了英偉達(dá)以外,只有AMD配在這個(gè)市場(chǎng)上活著,所以它就能吃那些中長(zhǎng)尾的份額。

陳茜

硅谷101視頻主理人:

Groq呢?ASIC呢?他們不配活著嗎?

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

ASIC落地的難度是非常高的,而且通用性很窄。第一是它量產(chǎn)很難,谷歌的TPU核心計(jì)算單元的transistor(晶體管),大小比英偉達(dá)要大2~4倍,背后的原因是它設(shè)計(jì)能力的不足,而芯片做大后,會(huì)導(dǎo)致良率下降,所以谷歌的TPU的良率90%都不到,英偉達(dá)的可能是99%,結(jié)果就是TPU量產(chǎn)很難,很多時(shí)候只能滿(mǎn)足大廠一兩個(gè)需求。

第二,ASIC的核心是根據(jù)客戶(hù)的業(yè)務(wù)來(lái)設(shè)計(jì)芯片,當(dāng)然中間很復(fù)雜,需要先了解客戶(hù)的業(yè)務(wù)、知道客戶(hù)的是代碼怎么寫(xiě)的,再根據(jù)這些代碼去設(shè)計(jì)硬件的芯片。谷歌的芯片只能在谷歌的生產(chǎn)里用,亞馬遜的芯片只能在亞馬遜的生產(chǎn)里用。

所以我覺(jué)得未來(lái)的推演,ASIC和GPU是共存的。英偉達(dá)會(huì)拿絕大部分通用的計(jì)算需求,然后ASIC它可能會(huì)拿走一些大廠部分的業(yè)務(wù)場(chǎng)景。比如谷歌有那么多TPU,但是它也采購(gòu)了大量的英偉達(dá)的卡,因?yàn)樗切┯ミ_(dá)的卡是要用到它自己的云上面給客戶(hù)用的,它的TPU只用在訓(xùn)練或者搜索上,應(yīng)用場(chǎng)景還是比較局限的。

所以看起來(lái),就像老黃說(shuō)的,無(wú)論在訓(xùn)練側(cè)還是在推理側(cè),“大家都有機(jī)會(huì),但機(jī)會(huì)不大”。英偉達(dá)不可能吃掉整個(gè)算力蛋糕,特別是當(dāng)我們進(jìn)入推理時(shí)代,出現(xiàn)越來(lái)越多特定環(huán)境的應(yīng)用需求,越來(lái)越多端側(cè)的需求,這時(shí)候市場(chǎng)是足夠大的,能容忍多個(gè)玩家。

任揚(yáng)

濟(jì)容投資聯(lián)合創(chuàng)始人:

如果咱們只從這個(gè)算力的一個(gè)角度來(lái)說(shuō),我覺(jué)得Inference(推理)的競(jìng)爭(zhēng)會(huì)比Training(訓(xùn)練) 更激烈。如果把這個(gè)視角放大一點(diǎn)的話(huà),Nvidia其實(shí)不是在和AMD、Groq或者ASIC這些去競(jìng)爭(zhēng),它其實(shí)是在和云計(jì)算廠商去競(jìng)爭(zhēng),比如Amazon、Microsoft,而算力是這里面非常重要的一個(gè)子戰(zhàn)場(chǎng)。

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

老黃有個(gè)策略是,可以用上一代的舊卡做推理,新一代卡做訓(xùn)練。因?yàn)榕f卡有折扣了,跟其他AI芯片公司在推理場(chǎng)景中競(jìng)爭(zhēng)時(shí)是有優(yōu)勢(shì)的。同時(shí)對(duì)很多人來(lái)說(shuō),如果訓(xùn)練跟推理的軟件框架是一致的,后面軟件部署的成本也會(huì)降低,這也是英偉達(dá)舊卡在推理市場(chǎng)的優(yōu)勢(shì)。

英偉達(dá)有很多的打法,它可以去定制推理卡。也可以在產(chǎn)能受限的情況下,只用舊卡來(lái)做推理,針對(duì)訓(xùn)練做這種又大、又能夠橫向拓展的新卡。老黃手里面的牌還是非常多的,完全可以選擇做或者不做ASIC。

業(yè)內(nèi)人士們依然對(duì)英偉達(dá)的護(hù)城河和市場(chǎng)優(yōu)勢(shì)抱有非常大的信心,但同時(shí)我們確實(shí)也感覺(jué)到,英偉達(dá)的股價(jià)在最近受到不少壓力。有美股機(jī)構(gòu)投資人對(duì)我們表示,除了宏觀大環(huán)境的壓力之外,GPT-5這樣的大模型性能表現(xiàn)依然是影響市場(chǎng)的重大因素。

劉沁東

濟(jì)容投資首席投資官:

因?yàn)橥顿Y人都是一幫簡(jiǎn)單粗暴的人,我覺(jué)得能夠給投資人信心的,就是GPT-5出來(lái)后,讓大家看到:堆算力還是有效,而且把模型帶到了下一個(gè)境界。那英偉達(dá)的股價(jià)可能就又都沖回來(lái)了。如果沒(méi)有的話(huà),我覺(jué)得要花相當(dāng)長(zhǎng)一段時(shí)間,讓世界理解了英偉達(dá)在生態(tài)鏈中的重要性,英偉達(dá)的股價(jià)才會(huì)慢慢到它該有的位置。

05、全生態(tài)超級(jí)碗模式

我們此前的數(shù)期節(jié)目都提到,黃仁勛是一個(gè)眼光非常長(zhǎng)遠(yuǎn)的CEO。而他這次傳遞出的一個(gè)重要信號(hào),就是“全生態(tài)布局”:今后任何一個(gè)需要加速計(jì)算的領(lǐng)域,他都不會(huì)錯(cuò)過(guò)。

讓我們記憶很深刻就是:在這一次的演講當(dāng)中,黃仁勛背后出現(xiàn)這一排像塔羅牌一樣的全生態(tài)布局,標(biāo)題是“為每一個(gè)產(chǎn)業(yè)服務(wù)的CUDA-X”。包括數(shù)值計(jì)算、計(jì)算光刻、5G/6G 信號(hào)處理、決策優(yōu)化、基因測(cè)序、醫(yī)學(xué)成像、天氣分析、量子計(jì)算、量子化學(xué)、深度學(xué)習(xí)、計(jì)算機(jī)輔助工程、數(shù)據(jù)科學(xué)和處理、物理學(xué)等等。

其中,量子計(jì)算、自動(dòng)駕駛和機(jī)器人賽道中的仿真平臺(tái)和算法,也是英偉達(dá)目前著重布局的方向??偟慕Y(jié)論是:黃仁勛不會(huì)放過(guò)任何一個(gè)需要算力的市場(chǎng)。

而黃仁勛也發(fā)出了很強(qiáng)勁的信號(hào),他說(shuō)2024年GTC大會(huì)就像一個(gè)Rock Concert,一個(gè)秀肌肉、炫酷的搖滾音樂(lè)會(huì)。而2025年的GTC大會(huì)是美國(guó)橄欖球Super Bowl(超級(jí)碗)。因?yàn)镾uper Bowl號(hào)稱(chēng)“美國(guó)春晚”,里面的所有人,包括兩個(gè)參賽的隊(duì)伍、廣告商、轉(zhuǎn)播商、觀賽游客,每個(gè)人都是贏家。

黃仁勛講的“全生態(tài)超級(jí)碗模式”的故事是“Nvidia is gonna make everyone a winner.”也就是說(shuō),在英偉達(dá)生態(tài)中每個(gè)人都是贏家。

黃仁勛

英偉達(dá)創(chuàng)始人兼CEO:

我們制定了一套年度路線規(guī)劃圖供大家參考,以便大家更好地規(guī)劃建設(shè)AI基礎(chǔ)設(shè)施。同時(shí),我們正在構(gòu)建三大AI基礎(chǔ)設(shè)施:云端AI基礎(chǔ)設(shè)施、企業(yè)級(jí)AI基礎(chǔ)設(shè)施以及機(jī)器人AI基礎(chǔ)設(shè)施。

黃仁勛預(yù)測(cè)2028年數(shù)據(jù)中心支出將會(huì)突破1萬(wàn)億美元,而到那時(shí),AI生態(tài)會(huì)如何發(fā)展?英偉達(dá)的霸主地位,是否如我們節(jié)目中嘉賓們預(yù)測(cè)的那樣將持續(xù)保持?而剩下的蛋糕中又會(huì)有什么新機(jī)會(huì)?硅谷101會(huì)持續(xù)為大家關(guān)注未來(lái)的動(dòng)向。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

英偉達(dá)

6.7k
  • 美股三大指數(shù)集體收漲,新股Newsmax跌超77%
  • 美股三大指數(shù)收盤(pán)漲跌不一,標(biāo)普500指數(shù)、納指3月份均創(chuàng)至少28個(gè)月以來(lái)最大單月跌幅

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

“再造一個(gè)CUDA”:英偉達(dá)的第二護(hù)城河與“超級(jí)碗”陽(yáng)謀

GTC 2025中暗藏的細(xì)節(jié)與魔鬼。

文|硅谷101 陳茜

英偉達(dá)2025年3月18日的GTC大會(huì)看似平淡,但魔鬼和驚喜都藏在細(xì)節(jié)中。

英偉達(dá)創(chuàng)始人兼CEO黃仁勛發(fā)布的各項(xiàng)更新,包括芯片路線圖,此前已經(jīng)被市場(chǎng)預(yù)期消化。在本次GTC之前,英偉達(dá)股價(jià)已經(jīng)承壓多時(shí),華爾街對(duì)接下來(lái)AI芯片需求的可持續(xù)性存在懷疑。而在整場(chǎng)演講中,黃仁勛也試圖打消外界的疑慮,但在當(dāng)天,英偉達(dá)股價(jià)仍然下跌3.3%。

我們剛聽(tīng)完黃仁勛的Keynote演講之后,第一反應(yīng)也覺(jué)得好像不如去年那么震撼和精彩,再加上演講中間PPT和流程還出現(xiàn)了各種小錯(cuò)誤,讓整個(gè)演講不如去年那么完美。

但結(jié)束之后我們跟一些機(jī)構(gòu)投資人和芯片從業(yè)者深聊的時(shí)候發(fā)現(xiàn),很多人對(duì)英偉達(dá)的發(fā)展路線和布局還是非??春茫J(rèn)為英偉達(dá)正繼續(xù)和競(jìng)爭(zhēng)對(duì)手們甩開(kāi)差距,雖然在宏觀層面上股價(jià)確實(shí)在近期受到多方面因素承壓。

這篇文章我們就和嘉賓們一起來(lái)聊聊在此次GTC上的觀察,并試圖來(lái)回答以下幾個(gè)問(wèn)題:

1.英偉達(dá)如何繼續(xù)擴(kuò)寬它的護(hù)城河?

2.在AI市場(chǎng)邁入“推理inferencing”階段,英偉達(dá)還能是市場(chǎng)上獨(dú)占鰲頭的贏家嗎?AMD、Groq、ASIC芯片還有谷歌的TPU等等玩家有機(jī)會(huì)翻盤(pán)嗎?

3.英偉達(dá)如何布局全市場(chǎng)生態(tài),讓所謂的“每個(gè)人都成為贏家”?

4.對(duì)于目前承壓的股價(jià),英偉達(dá)的下一個(gè)故事是什么?是機(jī)器人、還是是量子計(jì)算呢?

01、橫向拓展與縱向拓展

黃仁勛在Keynote演講中數(shù)次強(qiáng)調(diào):英偉達(dá)不是單張GPU芯片的敘事,而是所謂“Scale Up and Scale Out”更宏大的敘事。

黃仁勛說(shuō)的Scale Up指的是“縱向擴(kuò)展”,也就是通過(guò)NVLink通信互聯(lián)技術(shù)將單個(gè)系統(tǒng)的功能推到極致。

而Scale Out指的是“橫向擴(kuò)展”,也就是通過(guò)這次發(fā)布的硅光技術(shù)CPO(Co-packaged Optics,光電一體封裝交換機(jī))等革命性技術(shù)更新,來(lái)進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)中心(data center)的巨大算力集群的快速擴(kuò)張和提效。

而在AI邁入“推理”時(shí)代而對(duì)算力愈加渴望之際,英偉達(dá)“縱向”和“橫向”的擴(kuò)展將打造新一代AI強(qiáng)大的算力生態(tài)和架構(gòu),這就是黃仁勛想講的新故事。

任揚(yáng)

濟(jì)容投資聯(lián)合創(chuàng)始人:

老黃幾年前其實(shí)也在反復(fù)強(qiáng)調(diào)這個(gè)概念:以后計(jì)算單元不是GPU,甚至不是服務(wù)器,而是整個(gè)數(shù)據(jù)中心是一個(gè)計(jì)算單元。這是黃仁勛一直在試圖去推動(dòng)的方向吧。

Chapter 1.1 Scale Up

在講縱向擴(kuò)展前,我們先聊聊黃仁勛公布的之后幾代芯片的路線圖。

在Keynote中,黃仁勛給出了非常清晰的英偉達(dá)長(zhǎng)期路線圖,包括從當(dāng)前的Blackwell到未來(lái)的Blackwell Ultra、Vera Rubin、Rubin Ultra,最終到2028年的Feynman架構(gòu)。

每一代更新的芯片架構(gòu)名字最后的數(shù)字,代表的是GPU的芯片數(shù)量,而每一個(gè)架構(gòu)代表的是一個(gè)機(jī)架的整個(gè)性能。這個(gè)新命名方式也印證了黃仁勛想強(qiáng)調(diào)的敘事,已經(jīng)從單個(gè)GPU變成了數(shù)據(jù)中心的算力集群系統(tǒng)。

2025年下半年出貨的Blackwell Ultra NVL72連接了72塊Blackwell Ultra GPU,它的性能提升是前代GB200的1.5倍(這里要注意一下,黃仁勛在Keynote中又重新定義了“黃氏算法”:從Rubin開(kāi)始,GPU數(shù)量是根據(jù)“封裝中的GPU數(shù)量”,而不是“封裝數(shù)量”來(lái)計(jì)算的;所以按新的定義,Blackwell Ultra NVL72算是有144個(gè)GPU)。

以天文學(xué)家Vera Rubin命名的新一代GPU將于2026年下半年推出。Vera Rubin NVLink144的性能將是Blackwell Ultra(GB300) NVL72的3.3倍。

英偉達(dá)預(yù)計(jì)Vera Rubin之后,下一代Rubin Ultra NVL576將于2027年下半年推出,其性能將是Blackwell Ultra(GB300) NVL72的14倍。

Rubin之后的架構(gòu)代號(hào)為“Feynman”,以理論物理學(xué)家查德 費(fèi)曼命名,這已經(jīng)是2028年之后的故事了。

芯片從業(yè)人士告訴我們,英偉達(dá)的路線圖和性能提升幅度并沒(méi)有出乎外界的預(yù)期范圍,但黃仁勛傳達(dá)出的信號(hào)仍然非常積極,這就是:英偉達(dá)正在以及在未來(lái)幾年都會(huì)穩(wěn)健地給客戶(hù)交付更好性能的產(chǎn)品。

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

其實(shí)在我們芯片行業(yè),以英偉達(dá)這樣的節(jié)奏發(fā)布產(chǎn)品,已經(jīng)是執(zhí)行力非常強(qiáng)了。一般芯片公司從一款產(chǎn)品到下一款產(chǎn)品,芯片研發(fā)可能需要兩年時(shí)間,再加上軟件適配,可能就需要3到4年才能推出下一代芯片和系統(tǒng),所以英偉達(dá)的這個(gè)節(jié)奏已經(jīng)非常厲害。

但這也會(huì)讓公眾的期望更高。比如去年年底的時(shí)候,Blackwell出現(xiàn)了散熱和良率的問(wèn)題,股市上的反應(yīng)是非常強(qiáng)烈的。但對(duì)我們業(yè)內(nèi)人士來(lái)說(shuō),這些問(wèn)題是非常正常的。重新mask tap out(掩膜流片),再修正就可以了。

任揚(yáng)

濟(jì)容投資聯(lián)合創(chuàng)始人:

我覺(jué)得不管從產(chǎn)品的規(guī)劃、定義,到最后的落地執(zhí)行,英偉達(dá)都是非常穩(wěn)健、且領(lǐng)先對(duì)手的。但是如果和投資人的預(yù)期相比,確實(shí)沒(méi)有驚喜,也沒(méi)有意外。

以上就是黃仁勛所說(shuō)的Scale Up(縱向拓展)的部分,也是嘉賓口中的與預(yù)期相同、沒(méi)有驚喜的部分。接下來(lái)我們聊聊讓大家驚喜的部分,也就是Scale Out(橫向擴(kuò)展)的布局。

Chapter 1.2 Scale Out

最能表現(xiàn)黃仁勛對(duì)“規(guī)模擴(kuò)展”野心的,是采用集成硅光技術(shù)的NVIDIA CPO(Co-packaged Optics,光電一體封裝交換機(jī))。

雖然老黃在演講中展示的時(shí)候這些黃色的線被纏在了一起,弄了好久才弄開(kāi),但也是挺有話(huà)題度的,讓大家對(duì)這幾根線更好奇了。

接下來(lái)我們聊聊,這幾根線是怎么運(yùn)作的?如何能讓英偉達(dá)的數(shù)據(jù)中心縱向擴(kuò)展呢?

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

現(xiàn)在所有的Blackwell的機(jī)器,還是基于銅的互聯(lián)(Copper),之后會(huì)轉(zhuǎn)向光的互聯(lián)。

按照英偉達(dá)的說(shuō)法,CPO交換機(jī)的創(chuàng)新技術(shù),是將插拔式的光模塊替換為與ASIC(專(zhuān)用集成電路)一體化封裝的硅光器件。

與傳統(tǒng)網(wǎng)絡(luò)相比,可將現(xiàn)有能效提高3.5倍,網(wǎng)絡(luò)可靠性提高10倍,部署時(shí)間縮短1.3倍。這能極大程度增強(qiáng)英偉達(dá)數(shù)據(jù)中心的互聯(lián)性能,對(duì)于實(shí)現(xiàn)未來(lái)百萬(wàn)級(jí)GPU的AI工廠的大規(guī)模部署來(lái)說(shuō)至關(guān)重要。

匿名采訪

早期CPO光學(xué)科研人員:

OpenAI去年訓(xùn)練4o的時(shí)候經(jīng)常會(huì)訓(xùn)練失敗,因?yàn)楫?dāng)時(shí)的Frontier model(前沿模型)已經(jīng)基本窮盡了大部分的數(shù)據(jù),所以訓(xùn)練失敗的次數(shù)很多。訓(xùn)練GPT-5失敗的次數(shù)也非常多,因?yàn)槭〉拇螖?shù)更多了,所以做需要做更多實(shí)驗(yàn),而且每次實(shí)驗(yàn)的時(shí)間要盡可能短,公司是不能忍受一個(gè)實(shí)驗(yàn)做兩個(gè)禮拜沒(méi)消息的。如何能縮短時(shí)間?那就是提高通訊的速度。

除了速度快之外,CPO交換機(jī)也能在能耗和價(jià)格上帶來(lái)很多成本的節(jié)省。在GTC現(xiàn)場(chǎng),英偉達(dá)的工作人員展示了CPO實(shí)物是如何運(yùn)作的。

Brian Sparks

英偉達(dá)工作人員:

這就是我們的新產(chǎn)品:Quantum-X光子交換機(jī)。 這款交換機(jī)采用了ASIC(專(zhuān)用集成電路),也是我們首次能夠?qū)崿F(xiàn)硅光子技術(shù)的CPO(光電混合封裝)。過(guò)去需要一個(gè)光纖收發(fā)器用于連接網(wǎng)卡。但現(xiàn)在,光信號(hào)可以直接進(jìn)入交換機(jī)的接口,不再需要光纖收發(fā)器。這樣做有兩個(gè)好處:首先降低了成本,因?yàn)楣饫w收發(fā)器價(jià)格相當(dāng)昂貴;其次減少了功耗,因?yàn)閭鹘y(tǒng)光纖收發(fā)器大約消耗30到33瓦的功率,而我們現(xiàn)在能夠?qū)⒐慕档偷?瓦。

我們的采訪嘉賓認(rèn)為,訓(xùn)練側(cè)客戶(hù)在意的是時(shí)間,推理側(cè)客戶(hù)在意的是成本。而CPO技術(shù)能在一定程度上同時(shí)這兩種需求,提高訓(xùn)練與推理的效率。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

你如果只有一個(gè)芯片,把它打造得再厲害也是沒(méi)有用的。本質(zhì)原因是我們現(xiàn)在做推理、訓(xùn)練,都是用幾萬(wàn)個(gè)卡在一起的集群,比如Grok可能就一下就用 20 萬(wàn)個(gè)卡一起訓(xùn)練。重要的是怎么能讓幾萬(wàn)個(gè)、十萬(wàn)個(gè) 芯片高效地協(xié)同運(yùn)作。在這個(gè)互聯(lián)領(lǐng)域英偉達(dá)又再一次地領(lǐng)先了全球,因?yàn)樗蠧PO,它的機(jī)柜上有各種各樣的新花樣。所以我覺(jué)得從長(zhǎng)線來(lái)看,英偉達(dá)在推理集群領(lǐng)域的優(yōu)勢(shì)也是更明顯的。

Brian Sparks

英偉達(dá)工作人員:

當(dāng)進(jìn)行推理時(shí)需要大量的計(jì)算資源,需要更多的計(jì)算能力,因此網(wǎng)絡(luò)需要具備盡可能高的帶寬,能夠在每個(gè)端口上提供更多的性能,同時(shí)保持極低的延遲。通過(guò)去掉光纖收發(fā)器,就能離這個(gè)目標(biāo)更進(jìn)一步,并能減少功耗。

Chapter 1.3 CPU發(fā)展史和早期八卦

關(guān)于CPO,我們?cè)诓稍L期間還挖出一點(diǎn)點(diǎn)小八卦:黃仁勛在Keynote期間說(shuō)CPO是他們發(fā)明的,但光學(xué)工程師們可能會(huì)有一些不同的意見(jiàn)。

我們采訪了非常早期的硅光技術(shù)CPO的研究者和業(yè)內(nèi)從業(yè)者,他們表示,CPO這個(gè)技術(shù)從2000年左右在業(yè)界就已經(jīng)開(kāi)始研究了,而最開(kāi)始主導(dǎo)這個(gè)技術(shù)的是英特爾。

匿名采訪

早期CPO光學(xué)科研人員:

當(dāng)時(shí)我們提出來(lái)的這個(gè)技術(shù)叫做 Monolistic Integrated Phontonic IC(單片集成光子集成電路),那時(shí)候還不叫 Co-packaged Optics 。當(dāng)時(shí)做這個(gè)事情是因?yàn)橛⑻貭枌?duì)Big Data(大數(shù)據(jù))很感興趣。

這位資深的光學(xué)研究者告訴我們,大數(shù)據(jù)業(yè)務(wù)的驅(qū)動(dòng)下,英特爾是20年前的硅光子學(xué)(Silicon Photonics)最大的研究支持機(jī)構(gòu)。而之后發(fā)展出的CPO(Co-packaged optics)技術(shù)最早開(kāi)始研發(fā)是為了解決光電系統(tǒng)短距離通信,也是光纖通信研究發(fā)展的必然結(jié)果。

而在行業(yè)發(fā)展過(guò)程中,除了英特爾,其它小型企業(yè)也在嘗試研發(fā)這項(xiàng)技術(shù)。但硅光子學(xué)技術(shù)的研發(fā)非常耗錢(qián)耗力,需要先有市場(chǎng)需求,才能倒逼技術(shù)研發(fā)。

以上是Nathan評(píng)測(cè)的一部分節(jié)選,想看完整版的觀眾可以收看硅谷101視頻或Nathan的微信視頻號(hào)“硅谷AI領(lǐng)航”。

匿名采訪

早期CPO光學(xué)科研人員:

最開(kāi)始的時(shí)候,CPO應(yīng)用是大數(shù)據(jù),就是數(shù)據(jù)中心之間的通信。但數(shù)據(jù)中心之間的通信不需要那么高的碼率,100G之內(nèi)都不需要CPO。直到2012年,當(dāng)時(shí)Apache Spark(開(kāi)源集群運(yùn)算框架)出現(xiàn)了,而且Snowflake開(kāi)始快速發(fā)展,在這一年數(shù)據(jù)庫(kù)開(kāi)始上云了。這就意味著大量數(shù)據(jù)存在一個(gè)地方,而讀取和使用在另外一個(gè)地方,你需要做query(查詢(xún)),數(shù)據(jù)的移動(dòng)就變得非常得復(fù)雜,量也變得非常大。這時(shí)100G在數(shù)據(jù)中心之間的溝通已經(jīng)不夠用了,所以從2012年開(kāi)始,Google提升到400G,到2020年疫情之前提到了800G。

如果現(xiàn)在同樣大的connector(連接器)要做 800G ,里面的集成度就要高很多。當(dāng)集成度高了后,光纖系統(tǒng)設(shè)計(jì)就非常復(fù)雜。需要解決功耗、一致性等等問(wèn)題。但這兩個(gè)問(wèn)題解決了以后,良率基本上是0。從100G到200G、 200G到400G、 400G到800G,每一代一出來(lái)良率都是0。而研發(fā)費(fèi)用是非常貴的,基本是5個(gè)億以上。

以前沒(méi)有新的應(yīng)用就不會(huì)去研發(fā),現(xiàn)在有了新的應(yīng)用,數(shù)據(jù)倉(cāng)庫(kù)出現(xiàn)了,所以開(kāi)始研發(fā)。在400G發(fā)展到800G的時(shí)候,Meta和Google的報(bào)告中已經(jīng)開(kāi)始廣泛地使用POP(package on package)和PIP(package in package)這兩個(gè)詞,其實(shí)跟今天Co-package的概念基本上很接近了。

為什么硅光子技術(shù)的良率會(huì)這么低,需要花費(fèi)的研發(fā)費(fèi)用又這么高呢?

Cathy

光學(xué)工程師:

我們?nèi)说念^發(fā)的尺寸大概是一個(gè)0.01平方毫米,已經(jīng)是一個(gè)非常小的尺寸了。但在現(xiàn)實(shí)使用的Silicon Photonics Engine(硅光子引擎)里面,Microring resonator(微環(huán)諧振器)的尺寸比人的頭發(fā)還要再小十倍。

在制作的時(shí)候,哪怕是用非常先進(jìn)的工藝,也很容易造成納米級(jí)別的誤差。而且即使是納米級(jí)別的誤差,都會(huì)使得通過(guò)的光的波長(zhǎng)有所誤差。所以稍微一個(gè)不留神,就會(huì)導(dǎo)致本來(lái)該通過(guò)的光完全徹底通不過(guò)。

除此之外,我們需要精細(xì)到納米級(jí)別的加工精度的控制,降到一個(gè)納米基度的級(jí)別是非常困難的一件事情。

另外因?yàn)樾枰刂茰囟龋悦恳粋€(gè)Ring resonator(環(huán)形諧振器)都有自己的一個(gè)Heating Pad(加熱墊)。然后加熱墊連上一個(gè)精密的、有feedback(反饋)的溫度調(diào)控。而同時(shí)溫度調(diào)控又是一個(gè)時(shí)間的參數(shù),因?yàn)楣獾耐ㄟ^(guò)速度非??欤孕枰粋€(gè)非常精確、非常智能的溫度控制系統(tǒng)。而且每一個(gè)小的Micro resonator(微型諧振器)都需要這樣去調(diào)控,可以想象在一整個(gè)package(套件)里面有這么多的激光器,就需要非常復(fù)雜的一個(gè)溫度調(diào)控的算法。最終這一切加起來(lái)導(dǎo)致的效果就是,硅基光子的良率非常的低。

一位多年的從業(yè)者M(jìn)ehdi Asghari和我提到過(guò)一句話(huà):在電子制造之中,你不用提良率,因?yàn)榱悸识挤浅8撸?9.999…(無(wú)數(shù)個(gè)9),只有良率高了大家才能賺錢(qián)。但在硅基光子的行業(yè)中也不用提良率,因?yàn)榇蠹叶贾懒悸史浅5停晕⒉恍⌒木蜁?huì)導(dǎo)致良率崩盤(pán)。正是因?yàn)樾枰鞣N精確的控制,會(huì)讓良率非常低,這也導(dǎo)致了硅基光子的成本下不來(lái)。所以必須有個(gè)行業(yè),既需要快速、精確的控制,又能接受高成本,才能讓硅基光子學(xué)發(fā)展起來(lái)。

陳茜

硅谷101視頻主理人:

后來(lái)是怎么把良率給提上去的呢?

Cathy

光學(xué)工程師:

行業(yè)一點(diǎn)一點(diǎn)的磨合。英特爾在2000年就開(kāi)始做了,在這方面像行業(yè)的先驅(qū)。雖然老黃在硅基光子學(xué)并不是最早的,但是老黃為大家找到了非常好的應(yīng)用,能讓這個(gè)技術(shù)應(yīng)用在數(shù)據(jù)中心、AI大模型里面,有了實(shí)在的用武之地。

根據(jù)嘉賓的說(shuō)法,英偉達(dá)的光學(xué)通信系統(tǒng)技術(shù),來(lái)自2019年收購(gòu)的以色列芯片廠商Mellanox,而Mellanox的技術(shù)又源自于2013年收購(gòu)硅光子公司Kotura。

以上我們大概講了講CPO技術(shù)的發(fā)展史,和業(yè)內(nèi)從業(yè)者對(duì)老黃說(shuō)“CPO是英偉達(dá)發(fā)明的”一點(diǎn)challenge(挑戰(zhàn))。 也歡迎如果有硅光子產(chǎn)業(yè)的從業(yè)人員給我們留言說(shuō)說(shuō)你們對(duì)這個(gè)技術(shù)發(fā)展的八卦和故事。

不過(guò),正是因?yàn)辄S仁勛看到了CPO在AI數(shù)據(jù)中心大規(guī)模的應(yīng)用,才又一次通過(guò)市場(chǎng)應(yīng)用來(lái)支持技術(shù)研發(fā),將這個(gè)技術(shù)帶到了大眾的面前。

匿名采訪

早期CPO光學(xué)科研人員:

如果LLM(大語(yǔ)言模型)只是千億美元級(jí)的市場(chǎng)的話(huà),老黃根本就不會(huì)干這個(gè)事,因?yàn)檠邪l(fā)太貴了。但現(xiàn)在LLM到了萬(wàn)億美元級(jí)的市場(chǎng),老黃就認(rèn)為有市場(chǎng)了,就跟我之前說(shuō)的800G數(shù)據(jù)倉(cāng)庫(kù)是一樣的。既然LLM來(lái)了(市場(chǎng)來(lái)了),且這是一個(gè)不違反物理定律的事情,那只要錢(qián)堆得足夠多,不違反物理定律的事情都是能做成的。

雖然CPO技術(shù)不是英偉達(dá)獨(dú)家的,很多大公司都掌握了這個(gè)技術(shù)。但我們的嘉賓認(rèn)為,英偉達(dá)在內(nèi)部大力推進(jìn)CPO技術(shù)整合到生態(tài)中,將CPO做到競(jìng)品roadmap(路線圖)的數(shù)倍,用快速的執(zhí)行和研發(fā)效率,進(jìn)一步加深了生態(tài)的護(hù)城河和壁壘。

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

英偉達(dá)在光這塊其實(shí)投入也很大,招了很多人,也從各大公司都挖了不少人,會(huì)進(jìn)一步加深壁壘。

因?yàn)槠鋵?shí)有很多做硅光的公司可以做CPO的Module(模塊),但是如果要跟AI芯片合在一起做,那一定要找這些AI芯片出貨量最大的廠去合作。因?yàn)檫@里面涉及到芯片跟硅光模塊codesign(共同設(shè)計(jì)) 的問(wèn)題。而英偉達(dá)是in house(內(nèi)部研發(fā))的話(huà),相比其他硅光公司跟AMD、Sarabas、Groq合作,會(huì)有很多的know-how(實(shí)際知識(shí)和性能)的優(yōu)勢(shì)。

02、第二個(gè)CUDA

我們?cè)賮?lái)說(shuō)說(shuō)英偉達(dá)在軟件生態(tài)上的另外一個(gè)重要更新:Dynamo。這被我們的嘉賓認(rèn)為是英偉達(dá)想在推理側(cè)造就的“第二個(gè)CUDA”。

黃仁勛

英偉達(dá)創(chuàng)始人兼CEO:

Blackwell NVLink72搭配Dynamo,使AI工廠的性能相比Hopper提升40倍。在未來(lái)十年,隨著AI的橫向擴(kuò)展,推理將成為其最重要的工作內(nèi)容之一。

黃仁勛宣布在軟件方面,英偉達(dá)推出了Nvidia Dynamo。這是一款開(kāi)源的AI推理服務(wù)軟件,被視為Nvidia Triton推理服務(wù)器的“接班人”,旨在簡(jiǎn)化推理部署和擴(kuò)展。而它的設(shè)計(jì)目標(biāo)也很明確:以更高效和更低的成本來(lái)加速并擴(kuò)展AI模型的推理部署。

簡(jiǎn)單來(lái)說(shuō),Dynamo就像AI工廠中的“大腦和中樞”,負(fù)責(zé)協(xié)調(diào)成百上千張GPU的協(xié)同工作,確保每一次AI模型的推理請(qǐng)求都能用最少的資源、最快的速度得到處理,從而讓部署這些模型的企業(yè)花更少的錢(qián)去辦更多的事。

一些美股分析師認(rèn)為:如果說(shuō)CUDA是英偉達(dá)最強(qiáng)大的軟件生態(tài)護(hù)城河,那么Dynamo就是英偉達(dá)在推理側(cè)想搭建的第二道護(hù)城河。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

英偉達(dá)60%以上的護(hù)城河都來(lái)自于軟件。這一次推出的Dynamo,相當(dāng)于是在大模型AI領(lǐng)域又再造了一個(gè)CUDA。因?yàn)镈ynamo是能給推理降本的,而且還開(kāi)源了。Dynamo早期在未來(lái)新方向的布局上和CUDA是一樣的;從長(zhǎng)線來(lái)說(shuō),可能英偉達(dá)能再造一個(gè)CUDA,這對(duì)于它的在AI這個(gè)領(lǐng)域的護(hù)城河的幫助是非常強(qiáng)的。這是我比較看好的一個(gè)更新。

Dynamo帶來(lái)的最大亮點(diǎn)之一,就是大幅提升了推理性能和資源利用率,同時(shí)降低了單位推理任務(wù)的成本。

做一個(gè)類(lèi)比,Dynamo就像一家餐廳的智能調(diào)度經(jīng)理,在忙時(shí)能迅速增派更多廚師(也就是GPU)上灶,在閑時(shí)又讓多余的廚師休息,不讓人力閑置,從而做到高效又節(jié)約。

根據(jù)英偉達(dá)官網(wǎng),Dynamo包含了四項(xiàng)關(guān)鍵創(chuàng)新,來(lái)降低推理服務(wù)成本并改善用戶(hù)體驗(yàn)。

1.GPU 規(guī)劃器 (GPU Planner):這是一種規(guī)劃引擎,可動(dòng)態(tài)地添加和移除GPU,以適應(yīng)不斷變化的用戶(hù)需求,從而避免GPU配置過(guò)度或不足。這就像我們剛才說(shuō)的廚房遇到就餐高峰的時(shí)候,就加派廚師人手、加開(kāi)新的廚房,而客人少的時(shí)候就關(guān)掉部分廚房,Dynamo希望確保GPU不閑著也不堵車(chē),始終在最佳負(fù)載下運(yùn)行。這樣每一塊 GPU 都被充分利用,集群整體吞吐量隨之提高。

2.智能路由器(Smart Router):這是一個(gè)具備大語(yǔ)言模型(LLM) 感知能力的路由器,它可以在大型 GPU 集群中引導(dǎo)請(qǐng)求的流向,從而最大程度減少因重復(fù)或重疊請(qǐng)求,而導(dǎo)致的代價(jià)高昂的GPU重復(fù)計(jì)算,釋放出GPU資源以響應(yīng)新的請(qǐng)求。這有點(diǎn)像客服中心里把老客戶(hù)直接轉(zhuǎn)接給之前服務(wù)過(guò)他的座席員,因?yàn)槟俏蛔瘑T已經(jīng)有客戶(hù)的記錄(緩存),可以免去重復(fù)詢(xún)問(wèn),更快給出回答。而Dynamo正是利用這種機(jī)制,將過(guò)往推理中產(chǎn)生并存儲(chǔ)在顯存里的“知識(shí)” (KV緩存) 在潛在的數(shù)千塊 GPU 間建立索引映射,新請(qǐng)求來(lái)了就路由到握有相關(guān)緩存的 GPU 上。這樣一來(lái),大量重復(fù)的中間計(jì)算被省略,讓GPU 算力主要服務(wù)新的獨(dú)立請(qǐng)求。

3.低延遲通信庫(kù)(Low-Latency Communication Library):這個(gè)推理優(yōu)化庫(kù)支持先進(jìn)的GPU到GPU通信,并簡(jiǎn)化異構(gòu)設(shè)備之間的復(fù)雜數(shù)據(jù)交換,從而加速數(shù)據(jù)傳輸。

4.顯存管理器(Memory Manager):這是一種可在不影響用戶(hù)體驗(yàn)的情況下,以智能的方式在低成本顯存和存儲(chǔ)設(shè)備上,卸載及重新加載推理數(shù)據(jù)的引擎。這類(lèi)似于把不常用的工具先放入倉(cāng)庫(kù),需要時(shí)再拿出來(lái),留出昂貴的工作臺(tái)空間(高性能顯存)給當(dāng)前最緊要的工作。這種分層存儲(chǔ)和快速調(diào)取的策略,讓GPU顯存的利用更高效,推理成本能隨之下降。

而有了以上的這些優(yōu)化路徑,黃仁勛想在AI逐漸轉(zhuǎn)向推理時(shí)代之際,讓英偉達(dá)依然保持AI芯片的霸主地位。

根據(jù)英偉達(dá)的官方數(shù)據(jù),在相同數(shù)量的GPU 下,使用NVIDIA Hopper架構(gòu)的GPU跑的Llama大模型,在采用Dynamo后的整體推理性能和產(chǎn)生的結(jié)果數(shù)量直接翻倍,在由GB200 NVL72機(jī)架組成的大型集群上運(yùn)行DeepSeek-R1模型時(shí),Dynamo讓每張 GPU每秒能生成的token數(shù)量提升了超過(guò)30倍。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

英偉達(dá)在這條路上走得比其他人越來(lái)越遠(yuǎn)了,所以我覺(jué)得它傳遞的Key Message(重要信息) 就是all in推理。它把所有的精力都花在推理這條線上,然后讓其他人追不上它。

在今年的Keynote中,老黃的名句也變了:從“The more you buy, the more you save”(買(mǎi)得越多,省得越多),變成了“The more you buy, the more you make”(買(mǎi)得越多,賺得越多)。

這意味著英偉達(dá)的AI數(shù)據(jù)中心已經(jīng)準(zhǔn)備好服務(wù)推理側(cè)的客戶(hù),幫助客戶(hù)省錢(qián)提效。也意味著,英偉達(dá)想在推理側(cè)繼續(xù)成為算力霸主。

03、數(shù)據(jù)中心基建

要配合這樣更大規(guī)模集群的建設(shè),相關(guān)的數(shù)據(jù)中心基建和上下游也需要隨之更新了。

上文我們提到過(guò),芯片架構(gòu)的取名方式更新,代表著黃仁勛對(duì)“集群”生態(tài)的強(qiáng)調(diào),而非單芯片。而對(duì)應(yīng)的,數(shù)據(jù)中心中的機(jī)架架構(gòu)也將升級(jí)為“Kyber”,通過(guò)計(jì)算托盤(pán)旋轉(zhuǎn)90度,從而實(shí)現(xiàn)更高的機(jī)架密度。

Kyber 現(xiàn)場(chǎng)展示

這個(gè)是我們未來(lái)的Kyber Generation,是下一代產(chǎn)品。這就是一個(gè)72個(gè)GPU的GB200,總共有288個(gè)GPU(72*4) 。

除了機(jī)架的更新之外,整個(gè)數(shù)據(jù)中心的制冷、供電也都需要為新一代的芯片升級(jí)。

Mark Luxford

Vertiv工作人員:

正如黃仁勛在主題演講中宣布的,我們將推出Vera Rubin和Vera Rubin Ultra(配套基建設(shè)施)。我們平時(shí)與英偉達(dá)的合作非常緊密,我個(gè)人每周與他們溝通四次,來(lái)共同制定了這代產(chǎn)品的參考設(shè)計(jì)。

每代產(chǎn)品都這意味著需要更高功率,會(huì)需要更強(qiáng)的冷卻能力,我們正在響應(yīng)這一需求,同時(shí)確保系統(tǒng)架構(gòu)和冷卻管道能夠正常運(yùn)行,CDU(冷卻分配單元)能夠擴(kuò)展以滿(mǎn)足新的需求。就比如我們已經(jīng)把CDU從1兆瓦升級(jí)到了2.3兆瓦,這將非常適合Vera Rubin Ultra,能毫無(wú)壓力地處理600千瓦功率的機(jī)架。

這只是系統(tǒng)的一部分,我們還需要重新設(shè)計(jì)風(fēng)冷系統(tǒng)。我們會(huì)在機(jī)架級(jí)別的服務(wù)器中提取熱量,并通過(guò)CDU與設(shè)施電路進(jìn)行熱量交換。然后通過(guò)冷凍機(jī)、冷卻塔、干式冷卻器甚至通過(guò)熱泵將熱量排放到空氣或大氣中,或者將其用于城市供暖等用途。

硅谷101真正密切關(guān)注著數(shù)據(jù)中心的基建、電力系統(tǒng)、上下游供應(yīng)鏈等方向,未來(lái)會(huì)更深度地聊聊。

04、推理時(shí)代:群雄逐鹿還是單一霸主?

在AI訓(xùn)練側(cè),英偉達(dá)是絕對(duì)的霸主地位,但在AI進(jìn)入推理側(cè)之際,AMD、Groq、谷歌TPU還有ASIC這些玩家有機(jī)會(huì)分掉英偉達(dá)的蛋糕嗎?

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

在2023年的時(shí)候,我們請(qǐng)黃教主到華美半導(dǎo)體協(xié)會(huì),我當(dāng)時(shí)還挑戰(zhàn)性地問(wèn)了一個(gè)問(wèn)題。因?yàn)槲易约鹤鯝I芯片很多年,我就問(wèn)他:GPU架構(gòu)在很多應(yīng)用場(chǎng)景下的效率其實(shí)不高,而我們?cè)谧龈鞣N定制的AI芯片,比如稀疏化的(Sparsity)、基于RISC-V的,或者像Cerebras這種基于wafer-scaling(晶圓微縮)的大芯片等,那我們是不是還有機(jī)會(huì)?老黃對(duì)于我這個(gè)問(wèn)題的回答是:“大家都有機(jī)會(huì),但是你們的機(jī)會(huì)不大。”

在我們采訪的嘉賓中,無(wú)論是投資人、還是芯片領(lǐng)域的人,對(duì)于“大家都有機(jī)會(huì),但機(jī)會(huì)不大”這個(gè)結(jié)論都基本贊同。

原因是英偉達(dá)目前的生態(tài)已經(jīng)太完整,護(hù)城河已經(jīng)太高了,不僅僅是單個(gè)GPU的性能,而是整個(gè)大集群的高效聯(lián)通,以及CUDA軟件層面的優(yōu)化和支持。并且如我們上文所說(shuō)的,英偉達(dá)在領(lǐng)先對(duì)手的情況下,還在不停地加固新的護(hù)城河。

比如說(shuō)大家非常關(guān)注的“千年老二”AMD,一直沒(méi)有能在AI GPU這方面取得突破性的市場(chǎng)份額,在過(guò)去一年,股價(jià)也下滑了超過(guò)40%。歸根結(jié)底,還是軟件方面追趕不上英偉達(dá)。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

AMD的MI300發(fā)的時(shí)候,對(duì)標(biāo)的是英偉達(dá)的H100、H200。H100的內(nèi)存是80G,但MI300直接是128G;MI350是192G,英偉達(dá)的B卡才190G。AMD不僅卡的內(nèi)存高,而且還比英偉達(dá)便宜40%。雖然它參數(shù)看起來(lái)都很厲害,但我去測(cè)試的時(shí)候發(fā)現(xiàn),AMD的實(shí)際的性能遠(yuǎn)低于它寫(xiě)的參數(shù)。

原因有兩個(gè):第一,真的去開(kāi)發(fā)、測(cè)試ROCm(AMD的軟件,CUDA的對(duì)標(biāo)品)的時(shí)候,軟件全是bug(故障),根本就跑不通模型,推不出來(lái)。第二,AMD目前做得比較成熟的就是8張卡互聯(lián),我都沒(méi)見(jiàn)到過(guò)64個(gè)卡互聯(lián)。但英偉達(dá)在2027年都要576個(gè)卡互聯(lián)了,這之間的差距已經(jīng)沒(méi)辦法去彌補(bǔ)了。

更何況英偉達(dá)有NV Switch,AMD是沒(méi)有相應(yīng)的芯片的,沒(méi)有做出類(lèi)似成型的東西。AMD雖然有替代NVLink的東西,但是它穩(wěn)定的效率是NVLink的二分之一。而沒(méi)有NV Switch它又做不了集群,只能8個(gè)卡互聯(lián),所以我覺(jué)得在互聯(lián)的差距更大,更趕不上。

但并不是說(shuō)AMD在一些特定的市場(chǎng)沒(méi)有機(jī)會(huì)。二級(jí)市場(chǎng)投資人們認(rèn)為,客戶(hù)們不可能接受一家獨(dú)大,一定會(huì)給予AMD和其它芯片廠商一些機(jī)會(huì)。但在端模型起來(lái)之前,最大的份額可能依然會(huì)被英偉達(dá)所占據(jù)。

而至于ASIC這樣的專(zhuān)用集成電路,雖然也會(huì)有它們特定的市場(chǎng),但可能也占據(jù)不了太多英偉達(dá)的份額。

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

AMD在大力推AI PC,包括也在推它的GPU。但是它推的方式,可能是去跟一些大模型的廠商直接合作,比如說(shuō)某一個(gè)大模型在它這個(gè)場(chǎng)景下用得很好,而且這個(gè)應(yīng)用場(chǎng)景又非常廣,那在這種情況下也是有機(jī)會(huì)的。

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

AMD的故事是在三到五年以后,當(dāng)端側(cè)的東西都起來(lái)了,C端的應(yīng)用大模型的成本已經(jīng)非常低的時(shí)候,比如一個(gè)電腦、一個(gè)GPU也可以去訓(xùn)練大模型、做AI的時(shí)候。可以這么理解,在GPU這個(gè)領(lǐng)域,除了英偉達(dá)以外,只有AMD配在這個(gè)市場(chǎng)上活著,所以它就能吃那些中長(zhǎng)尾的份額。

陳茜

硅谷101視頻主理人:

Groq呢?ASIC呢?他們不配活著嗎?

孫田浩

美國(guó)二級(jí)市場(chǎng)投資人

某新加坡聯(lián)合家辦資深分析師:

ASIC落地的難度是非常高的,而且通用性很窄。第一是它量產(chǎn)很難,谷歌的TPU核心計(jì)算單元的transistor(晶體管),大小比英偉達(dá)要大2~4倍,背后的原因是它設(shè)計(jì)能力的不足,而芯片做大后,會(huì)導(dǎo)致良率下降,所以谷歌的TPU的良率90%都不到,英偉達(dá)的可能是99%,結(jié)果就是TPU量產(chǎn)很難,很多時(shí)候只能滿(mǎn)足大廠一兩個(gè)需求。

第二,ASIC的核心是根據(jù)客戶(hù)的業(yè)務(wù)來(lái)設(shè)計(jì)芯片,當(dāng)然中間很復(fù)雜,需要先了解客戶(hù)的業(yè)務(wù)、知道客戶(hù)的是代碼怎么寫(xiě)的,再根據(jù)這些代碼去設(shè)計(jì)硬件的芯片。谷歌的芯片只能在谷歌的生產(chǎn)里用,亞馬遜的芯片只能在亞馬遜的生產(chǎn)里用。

所以我覺(jué)得未來(lái)的推演,ASIC和GPU是共存的。英偉達(dá)會(huì)拿絕大部分通用的計(jì)算需求,然后ASIC它可能會(huì)拿走一些大廠部分的業(yè)務(wù)場(chǎng)景。比如谷歌有那么多TPU,但是它也采購(gòu)了大量的英偉達(dá)的卡,因?yàn)樗切┯ミ_(dá)的卡是要用到它自己的云上面給客戶(hù)用的,它的TPU只用在訓(xùn)練或者搜索上,應(yīng)用場(chǎng)景還是比較局限的。

所以看起來(lái),就像老黃說(shuō)的,無(wú)論在訓(xùn)練側(cè)還是在推理側(cè),“大家都有機(jī)會(huì),但機(jī)會(huì)不大”。英偉達(dá)不可能吃掉整個(gè)算力蛋糕,特別是當(dāng)我們進(jìn)入推理時(shí)代,出現(xiàn)越來(lái)越多特定環(huán)境的應(yīng)用需求,越來(lái)越多端側(cè)的需求,這時(shí)候市場(chǎng)是足夠大的,能容忍多個(gè)玩家。

任揚(yáng)

濟(jì)容投資聯(lián)合創(chuàng)始人:

如果咱們只從這個(gè)算力的一個(gè)角度來(lái)說(shuō),我覺(jué)得Inference(推理)的競(jìng)爭(zhēng)會(huì)比Training(訓(xùn)練) 更激烈。如果把這個(gè)視角放大一點(diǎn)的話(huà),Nvidia其實(shí)不是在和AMD、Groq或者ASIC這些去競(jìng)爭(zhēng),它其實(shí)是在和云計(jì)算廠商去競(jìng)爭(zhēng),比如Amazon、Microsoft,而算力是這里面非常重要的一個(gè)子戰(zhàn)場(chǎng)。

David Xiao

CASPA主席

資深芯片從業(yè)者

ZFLOW AI創(chuàng)始人兼CEO:

老黃有個(gè)策略是,可以用上一代的舊卡做推理,新一代卡做訓(xùn)練。因?yàn)榕f卡有折扣了,跟其他AI芯片公司在推理場(chǎng)景中競(jìng)爭(zhēng)時(shí)是有優(yōu)勢(shì)的。同時(shí)對(duì)很多人來(lái)說(shuō),如果訓(xùn)練跟推理的軟件框架是一致的,后面軟件部署的成本也會(huì)降低,這也是英偉達(dá)舊卡在推理市場(chǎng)的優(yōu)勢(shì)。

英偉達(dá)有很多的打法,它可以去定制推理卡。也可以在產(chǎn)能受限的情況下,只用舊卡來(lái)做推理,針對(duì)訓(xùn)練做這種又大、又能夠橫向拓展的新卡。老黃手里面的牌還是非常多的,完全可以選擇做或者不做ASIC。

業(yè)內(nèi)人士們依然對(duì)英偉達(dá)的護(hù)城河和市場(chǎng)優(yōu)勢(shì)抱有非常大的信心,但同時(shí)我們確實(shí)也感覺(jué)到,英偉達(dá)的股價(jià)在最近受到不少壓力。有美股機(jī)構(gòu)投資人對(duì)我們表示,除了宏觀大環(huán)境的壓力之外,GPT-5這樣的大模型性能表現(xiàn)依然是影響市場(chǎng)的重大因素。

劉沁東

濟(jì)容投資首席投資官:

因?yàn)橥顿Y人都是一幫簡(jiǎn)單粗暴的人,我覺(jué)得能夠給投資人信心的,就是GPT-5出來(lái)后,讓大家看到:堆算力還是有效,而且把模型帶到了下一個(gè)境界。那英偉達(dá)的股價(jià)可能就又都沖回來(lái)了。如果沒(méi)有的話(huà),我覺(jué)得要花相當(dāng)長(zhǎng)一段時(shí)間,讓世界理解了英偉達(dá)在生態(tài)鏈中的重要性,英偉達(dá)的股價(jià)才會(huì)慢慢到它該有的位置。

05、全生態(tài)超級(jí)碗模式

我們此前的數(shù)期節(jié)目都提到,黃仁勛是一個(gè)眼光非常長(zhǎng)遠(yuǎn)的CEO。而他這次傳遞出的一個(gè)重要信號(hào),就是“全生態(tài)布局”:今后任何一個(gè)需要加速計(jì)算的領(lǐng)域,他都不會(huì)錯(cuò)過(guò)。

讓我們記憶很深刻就是:在這一次的演講當(dāng)中,黃仁勛背后出現(xiàn)這一排像塔羅牌一樣的全生態(tài)布局,標(biāo)題是“為每一個(gè)產(chǎn)業(yè)服務(wù)的CUDA-X”。包括數(shù)值計(jì)算、計(jì)算光刻、5G/6G 信號(hào)處理、決策優(yōu)化、基因測(cè)序、醫(yī)學(xué)成像、天氣分析、量子計(jì)算、量子化學(xué)、深度學(xué)習(xí)、計(jì)算機(jī)輔助工程、數(shù)據(jù)科學(xué)和處理、物理學(xué)等等。

其中,量子計(jì)算、自動(dòng)駕駛和機(jī)器人賽道中的仿真平臺(tái)和算法,也是英偉達(dá)目前著重布局的方向。總的結(jié)論是:黃仁勛不會(huì)放過(guò)任何一個(gè)需要算力的市場(chǎng)。

而黃仁勛也發(fā)出了很強(qiáng)勁的信號(hào),他說(shuō)2024年GTC大會(huì)就像一個(gè)Rock Concert,一個(gè)秀肌肉、炫酷的搖滾音樂(lè)會(huì)。而2025年的GTC大會(huì)是美國(guó)橄欖球Super Bowl(超級(jí)碗)。因?yàn)镾uper Bowl號(hào)稱(chēng)“美國(guó)春晚”,里面的所有人,包括兩個(gè)參賽的隊(duì)伍、廣告商、轉(zhuǎn)播商、觀賽游客,每個(gè)人都是贏家。

黃仁勛講的“全生態(tài)超級(jí)碗模式”的故事是“Nvidia is gonna make everyone a winner.”也就是說(shuō),在英偉達(dá)生態(tài)中每個(gè)人都是贏家。

黃仁勛

英偉達(dá)創(chuàng)始人兼CEO:

我們制定了一套年度路線規(guī)劃圖供大家參考,以便大家更好地規(guī)劃建設(shè)AI基礎(chǔ)設(shè)施。同時(shí),我們正在構(gòu)建三大AI基礎(chǔ)設(shè)施:云端AI基礎(chǔ)設(shè)施、企業(yè)級(jí)AI基礎(chǔ)設(shè)施以及機(jī)器人AI基礎(chǔ)設(shè)施。

黃仁勛預(yù)測(cè)2028年數(shù)據(jù)中心支出將會(huì)突破1萬(wàn)億美元,而到那時(shí),AI生態(tài)會(huì)如何發(fā)展?英偉達(dá)的霸主地位,是否如我們節(jié)目中嘉賓們預(yù)測(cè)的那樣將持續(xù)保持?而剩下的蛋糕中又會(huì)有什么新機(jī)會(huì)?硅谷101會(huì)持續(xù)為大家關(guān)注未來(lái)的動(dòng)向。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。