文|半導(dǎo)體產(chǎn)業(yè)縱橫
最近,市場(chǎng)關(guān)注的兩家ASIC企業(yè)都發(fā)布了自家的財(cái)報(bào)。
博通2025財(cái)年第一季度財(cái)報(bào)顯示,營(yíng)收149.16億美元,同比增長(zhǎng)25%,凈利潤(rùn)55.03億美元,同比增長(zhǎng)315%。其中,第一季度與AI有關(guān)的收入同比增長(zhǎng)77%至41億美元。
Marvell預(yù)計(jì)第一財(cái)季銷售額約為18.8億美元,同比增長(zhǎng)27%。其中,AI業(yè)務(wù)收入達(dá)7億美元左右,主要是亞馬遜等客戶定制ASIC等產(chǎn)品需求增長(zhǎng)的帶動(dòng)。
01、ASIC,越發(fā)豐富
今年以來,大模型的更迭越發(fā)的激烈。DeepSeek研究團(tuán)隊(duì)再放大招,公開NSA算法。同日,馬斯克發(fā)布Grok 3模型,號(hào)稱拳打DeepSeek腳踢OpenAI。
DeepSeep之風(fēng)正盛,將全球科技產(chǎn)業(yè)的重心從訓(xùn)練推向推理階段。由于DeepSeek是MOE模型,能夠?qū)崿F(xiàn)更低的激活比。算力、內(nèi)存、互聯(lián)原有平衡發(fā)生劇變,新算力架構(gòu)機(jī)會(huì)再次進(jìn)入同一起跑線。
這種條件下,定制化芯片ASIC似乎越來越適合AI時(shí)代。
ASIC芯片的主要根據(jù)運(yùn)算類型分為了TPU、DPU和NPU芯片,分別對(duì)應(yīng)了不同的基礎(chǔ)計(jì)算功能,也有不同的優(yōu)勢(shì)。
TPU
先來看TPU。TPU的核心是矩陣乘法單元,它采用脈動(dòng)陣列架構(gòu),這意味著數(shù)據(jù)以類似心臟跳動(dòng)的方式在芯片內(nèi)流動(dòng)。這種架構(gòu)允許高度并行的乘法和加法操作,使得TPU能夠在每個(gè)時(shí)鐘周期內(nèi)處理大量的矩陣運(yùn)算。
如果把TPU比作一個(gè)工廠,這個(gè)工廠的任務(wù)是把兩堆數(shù)字(矩陣)相乘。每個(gè)工人(脈動(dòng)陣列的小格子)只需要做簡(jiǎn)單的乘法和加法,然后把結(jié)果傳給下一個(gè)工人。這樣,整個(gè)工廠就能高效地完成任務(wù),而且速度比普通的工廠(比如CPU或GPU)快很多。
TPU的優(yōu)勢(shì)是能夠高效處理大規(guī)模矩陣運(yùn)算,支持神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理任務(wù)。所以,更加適合用在數(shù)據(jù)中心的AI訓(xùn)練和推理任務(wù),如自然語言處理、計(jì)算機(jī)視覺和語音識(shí)別。
DPU
其次來看DPU。DPU能夠處理大量的網(wǎng)絡(luò)數(shù)據(jù)包,包括接收、分類、轉(zhuǎn)發(fā)和過濾等。它通過硬件加速引擎(如網(wǎng)絡(luò)處理引擎)來加速網(wǎng)絡(luò)操作,減少CPU在網(wǎng)絡(luò)處理上的負(fù)載。
DPU就像是一個(gè)快遞中心,它負(fù)責(zé)接收包裹(數(shù)據(jù)),快速分揀,然后把包裹送到正確的地方。它有自己的小助手(加速器),這些小助手很擅長(zhǎng)處理特定的任務(wù),比如快速識(shí)別包裹的地址或者檢查包裹是否完好。這樣,DPU就能讓整個(gè)快遞系統(tǒng)(數(shù)據(jù)中心)運(yùn)行得更高效。
DPU的優(yōu)勢(shì)是可以卸載CPU的部分任務(wù),減少CPU的負(fù)擔(dān)。優(yōu)化了數(shù)據(jù)傳輸路徑,從而提高系統(tǒng)的整體效率。所以,它的應(yīng)用場(chǎng)景是數(shù)據(jù)中心的網(wǎng)絡(luò)加速、存儲(chǔ)管理、安全處理等。
NPU
再來看NPU。NPU是專門為神經(jīng)網(wǎng)絡(luò)計(jì)算設(shè)計(jì)的芯片,采用“數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算”的架構(gòu)。它能夠高效執(zhí)行大規(guī)模矩陣運(yùn)算,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的卷積操作。
如果把NPU比作一個(gè)廚房,這個(gè)廚房有很多廚師(計(jì)算單元),每個(gè)廚師都能同時(shí)做自己的菜(處理數(shù)據(jù))。比如,一個(gè)廚師負(fù)責(zé)切菜,一個(gè)廚師負(fù)責(zé)炒菜,另一個(gè)廚師負(fù)責(zé)擺盤。這樣,整個(gè)廚房就能同時(shí)處理很多道菜,效率非常高。NPU就是這樣,通過并行處理,讓神經(jīng)網(wǎng)絡(luò)的計(jì)算變得更快。
NPU的優(yōu)勢(shì)就是執(zhí)行AI任務(wù)時(shí)功耗較低,適合邊緣設(shè)備。并且,專為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),適合處理深度學(xué)習(xí)任務(wù)。所以,NPU的應(yīng)用場(chǎng)景是人臉識(shí)別、語音識(shí)別、自動(dòng)駕駛、智能相機(jī)等需要進(jìn)行深度學(xué)習(xí)任務(wù)的領(lǐng)域。
簡(jiǎn)而言之,TPU適合深度學(xué)習(xí)、DPU適合數(shù)據(jù)中心的數(shù)據(jù)管理、NPU通過并行計(jì)算快速完成神經(jīng)網(wǎng)絡(luò)任務(wù),適合各種AI應(yīng)用。
最近,還出現(xiàn)了LPU,一種專門為處理語言任務(wù)而設(shè)計(jì)的芯片。它的推出就是專門針對(duì)語言處理優(yōu)化的架構(gòu)和指令集,能夠更高效地處理文本、語音等數(shù)據(jù),從而加速大語言模型的訓(xùn)練和推理過程。
摩根士丹利預(yù)測(cè)AI ASIC的總可用市場(chǎng)將從2024年的120億美元增長(zhǎng)到2027年的300億美元,期間英偉達(dá)的AI GPU存在強(qiáng)烈的競(jìng)爭(zhēng)。
現(xiàn)在,在ASIC賽道上的玩家,已經(jīng)越來越多。
02、擁擠的ASIC賽道
3nm ASIC芯片的賽道上擠滿了大廠。
亞馬遜一直在致力于自研芯片以降低數(shù)據(jù)中心成本。
2022年,AWS發(fā)布了Trainium 1和 Inferentia 2芯片。當(dāng)時(shí),Trainium1在訓(xùn)練方面表現(xiàn)不是很好,更加適合AI推理工作。
之后,AWS又發(fā)布了當(dāng)前的Trainium 2,采用5nm工藝。單個(gè)Trainium 2芯片提供650 TFLOP/s的BF16性能。Trn2實(shí)例的能效比同類GPU實(shí)例高出25%,Trn2 UltraServer的能效比Trn1實(shí)例高三倍。
去年12月,亞馬遜宣布要推出全新 Trainium3,采用的是3nm工藝。與上代 Trainium2 相比,計(jì)算能力增加2倍,能源效率提升40%,預(yù)計(jì)2025年底問世。
據(jù)了解,在AWS的3nm Trainium項(xiàng)目中,世芯電子(Alchip)和Marvell展開了激烈的競(jìng)爭(zhēng)。
世芯電子(Alchip)是第一家宣布其3nm設(shè)計(jì)和生產(chǎn)生態(tài)系統(tǒng)準(zhǔn)備就緒的ASIC公司,支持臺(tái)積電的N3E工藝。Marvell則在Trainium 2項(xiàng)目中已經(jīng)取得了顯著進(jìn)展,并有望繼續(xù)參與Trainium 3的設(shè)計(jì)。
當(dāng)前的競(jìng)爭(zhēng)焦點(diǎn)在于:后端設(shè)計(jì)服務(wù)和CoWoS產(chǎn)能分配上??凑l能夠在Trainium項(xiàng)目爭(zhēng)取到更多的份額。
之前我們提到的TPU,以谷歌的TPU最具有代表性。谷歌的TPU系列芯片從v1到最新的Trillium TPU。TPU為Gemini 2.0的訓(xùn)練和推理提供了100%的支持。據(jù)谷歌這邊說,Trillium 的早期客戶AI21 Labs認(rèn)為是有顯著改進(jìn)的。AI21 Labs首席技術(shù)官Barak Lenz表示:“Trillium在規(guī)模、速度和成本效益方面的進(jìn)步非常顯著?!爆F(xiàn)在谷歌的TPU v7正在開發(fā)階段,同樣采用的是3nm工藝,預(yù)計(jì)量產(chǎn)時(shí)間是在2026年。
據(jù)產(chǎn)業(yè)鏈相關(guān)人士透露,谷歌TPU芯片去年的生產(chǎn)量已經(jīng)達(dá)到280萬到300萬片之間,成為全球第三大數(shù)據(jù)中心芯片設(shè)計(jì)廠商。
從合作對(duì)象來說,谷歌和博通始終是在深度合作的。谷歌從TPU v1開始,就和博通達(dá)成了深度合作,它與博通共同設(shè)計(jì)了迄今為止已公布的所有TPU,而博通在這方面的營(yíng)收也因谷歌水漲船高。
微軟在ASIC方面也在發(fā)力。Maia 200是微軟為數(shù)據(jù)中心和AI任務(wù)定制的高性能加速器,同樣采用3nm工藝,預(yù)計(jì)在2026年進(jìn)入量產(chǎn)階段,至于現(xiàn)在Maia 100,也是專為在Azure中的大規(guī)模AI工作負(fù)載而設(shè)計(jì)。支持大規(guī)模并行計(jì)算,特別適合自然語言處理(NLP)和生成式AI任務(wù)。從現(xiàn)在的信息來看,這款產(chǎn)品微軟選擇和Marvell 合作。
早在今年1月就有消息傳出,美國(guó)推理芯片公司Groq已經(jīng)在自己的LPU芯片上實(shí)機(jī)運(yùn)行DeepSeek,效率比最新的H100快上一個(gè)量級(jí),達(dá)到每秒24000token。值得關(guān)注的是,Groq曾于2024 年12月在沙特阿拉伯達(dá)曼構(gòu)建了中東地區(qū)最大的推理集群,該集群包括了19000個(gè)Groq LPU。
Open AI首款A(yù)I ASIC芯片即將完成,會(huì)在未來幾個(gè)月內(nèi)完成其首款內(nèi)部芯片的設(shè)計(jì),并計(jì)劃送往臺(tái)積電進(jìn)行制造,以完成流片(taping out)。最新消息是,OpenAI會(huì)在2026年實(shí)現(xiàn)在臺(tái)積電實(shí)現(xiàn)量產(chǎn)的目標(biāo)。
03、ASIC真的劃算嗎?
谷歌、AWS、Open AI都在加大對(duì)自研ASIC的投入。那么,ASIC真的劃算嗎?
先從性能上來看,ASIC是為特定任務(wù)定制的芯片,其核心優(yōu)勢(shì)在于高性能和低功耗。在同等預(yù)算下,AWS的Trainium 2可以比英偉達(dá)的H100 GPU更快速完成推理任務(wù),且性價(jià)比提高了30%~40%。Trainium3計(jì)劃于2025年下半年推出,計(jì)算性能提高2 倍,能效提高40%。
并且,GPU由于架構(gòu)的特性,一般會(huì)在AI計(jì)算中保留圖形渲染、視頻編解碼等功能模塊,但在AI計(jì)算中這些模塊大部分處于閑置狀態(tài)。有研究指出,英偉達(dá)H100 GPU上有大約15%的晶體管是未在AI計(jì)算過程中被使用的。
從成本上來看,ASIC在大規(guī)模量產(chǎn)時(shí),單位成本顯著低于GPU。ASIC在規(guī)模量產(chǎn)的情況下可以降至GPU的三分之一。但一次性工程費(fèi)用NRE(Non-Recurring Engineering)非常高。
以定制一款采用5nm制程的ASIC為例,NRE費(fèi)用可以高達(dá)1億至2億美元。然而一旦能夠大規(guī)模出貨,NRE費(fèi)用就可以很大程度上被攤薄。
此前有業(yè)內(nèi)人士分析,中等復(fù)雜程度的ASIC盈虧平衡點(diǎn)在10萬片左右,這對(duì)于很多廠商來說已經(jīng)是遙不可及。
但對(duì)于大規(guī)模部署的云計(jì)算大廠或AI應(yīng)用提供商,ASIC的定制化優(yōu)勢(shì)能夠顯著降低運(yùn)營(yíng)成本,從而更快地實(shí)現(xiàn)盈利。
04、算力走向推理,ASIC的需求只多不少
在溫哥華NeurIPS大會(huì)上,OpenAI聯(lián)合創(chuàng)始人兼前首席科學(xué)家Ilya Sutskever曾作出“AI預(yù)訓(xùn)練時(shí)代將終結(jié)”的判斷。
巴克萊的一份報(bào)告預(yù)計(jì),AI推理計(jì)算需求將快速提升,預(yù)計(jì)其將占通用人工智能總計(jì)算需求的70%以上,推理計(jì)算的需求甚至可以超過訓(xùn)練計(jì)算需求,達(dá)到后者的4.5倍。
英偉達(dá)GPU目前在推理市場(chǎng)中市占率約80%,但隨著大型科技公司定制化ASIC芯片不斷涌現(xiàn),這一比例有望在2028年下降至50%左右。
不過,在博通的觀察中,AI訓(xùn)練仍然是會(huì)占據(jù)主流。博通CEO陳福陽最近表示:“公司把推理作為一個(gè)獨(dú)立的產(chǎn)品線,推理與訓(xùn)練芯片的架構(gòu)非常不同。公司預(yù)計(jì)三個(gè)客戶未來需求市場(chǎng)總量將達(dá)600億~900億美元,這個(gè)需求總量既包含了訓(xùn)練,又包含了推理,但其中訓(xùn)練的部分更大?!?/p>
對(duì)于第二季度來講,博通對(duì)于ASIC的預(yù)期仍舊保持樂觀。預(yù)計(jì)第二季度博通的AI半導(dǎo)體收入將繼續(xù)保持強(qiáng)勁增長(zhǎng)勢(shì)頭,達(dá)到44億美元。
Marvell在電話會(huì)議上,同樣也展示了對(duì)于ASIC的信心。透露其定制的ARM CPU,將在客戶的數(shù)據(jù)中心中得到更廣泛的應(yīng)用。并且定制的人工智能 XPU,其表現(xiàn)也非常出色,未來將有大量的量產(chǎn)。