文|半導(dǎo)體產(chǎn)業(yè)縱橫
?最近,芯片界傳奇人物、處理器設(shè)計大佬、Tenstorrent現(xiàn)任首席執(zhí)行官吉姆·凱勒(Jim Keller)在接受采訪時表示,英偉達(dá)沒有很好地服務(wù)于很多市場,因此,Tenstorrent和其它新創(chuàng)AI處理器研發(fā)公司是有機(jī)會的。
Jim Keller曾任職于多家大牌企業(yè),包括AMD,英特爾、蘋果和特斯拉。1998~1999年,Jim Keller在AMD主導(dǎo)了支撐速龍系列處理器的K7/K8架構(gòu)開發(fā)工作,2008~2012年,在蘋果牽頭研發(fā)了A4、A5處理器,2012~2015年,在AMD主持K12 Arm項目和Zen架構(gòu)項目,2016~2018年,在特斯拉研發(fā)FSD自動駕駛芯片,2018~2020年,在英特爾參與了神秘項目。
現(xiàn)在,Jim Keller在Tenstorrent領(lǐng)導(dǎo)AI處理器的開發(fā),可以為英偉達(dá)昂貴的GPU提供價格合理的替代品,英偉達(dá)的GPU每個售價20,000 ~ 30,000美元或更多,Tenstorrent 稱,其Galaxy系統(tǒng)的效率是英偉達(dá)DGX的3倍,成本低33%。做高性能AI應(yīng)用處理器的產(chǎn)品替代是Tenstorrent工作的一部分,但不是全部,該公司的業(yè)務(wù)宗旨是服務(wù)英偉達(dá)未能解決的市場痛點,尤其是在邊緣計算領(lǐng)域。
01、邊緣計算AI地位提升
隨著海量數(shù)據(jù)持續(xù)增加,以及對計算和存儲系統(tǒng)實時性和安全性要求的提升,數(shù)據(jù)中心已經(jīng)不能滿足市場和客戶的需求,市場要求相關(guān)軟硬件系統(tǒng)提供商找到更快捷的方式來服務(wù)客戶,以提高運營效率并降低成本。
在邊緣運行AI工作負(fù)載的邊緣到云解決方案有助于滿足這一需求,將算力放在靠近數(shù)據(jù)創(chuàng)建點的網(wǎng)絡(luò)邊緣,對于要求近乎實時的應(yīng)用至關(guān)重要,在本地設(shè)備上處理算法和數(shù)據(jù)等,而不是將這些工作負(fù)載傳送到云或數(shù)據(jù)中心。
隨著5G和物聯(lián)網(wǎng)的發(fā)展,AI芯片在邊緣運算領(lǐng)域的應(yīng)用前景十分廣闊,例如,自動駕駛汽車、智慧城市等場景,都需要在終端裝置上進(jìn)行實時的AI推理。為此,多家廠商紛紛推出了專用于邊緣推理的AI芯片。
在制造業(yè),本地運行的AI模型可以快速響應(yīng)來自傳感器和攝像頭的數(shù)據(jù),以執(zhí)行重要任務(wù)。例如,汽車制造商使用計算機(jī)視覺掃描裝配線,以在車輛離開工廠之前識別車輛的潛在缺陷。在這樣的應(yīng)用中,非常低的延遲和始終在線的要求使得在整個網(wǎng)絡(luò)中來回傳送數(shù)據(jù)變得不切實際。即使是少量的延遲也會影響產(chǎn)品質(zhì)量。
另外,低功耗設(shè)備無法處理大的AI工作負(fù)載,例如訓(xùn)練計算機(jī)視覺系統(tǒng)所依賴的模型。從邊緣到云的整體解決方案結(jié)合了兩端的優(yōu)勢,后端云為復(fù)雜的AI工作負(fù)載提供可擴(kuò)展性和處理能力,前端邊緣設(shè)備將數(shù)據(jù)和分析緊密地結(jié)合在一起,以最大限度地減少延遲。
以Arduino低功耗邊緣設(shè)備為例,許多這類設(shè)備的成本不到100美元,用戶可以組合運行機(jī)器學(xué)習(xí)模型的幾臺或數(shù)千臺設(shè)備。例如,一家農(nóng)業(yè)企業(yè)使用Arduino解決方案來最大限度地提高作物產(chǎn)量,方案涉及傳感器,這些傳感器為邊緣設(shè)備提供土壤濕度和風(fēng)況等數(shù)據(jù),以確定作物所需的水量。該技術(shù)可以幫助農(nóng)民避免過度澆水,并降低電動水泵的運行成本。
再例如,一家依賴精密車床的制造商將傳感器與Arduino設(shè)備結(jié)合使用,以檢測異常情況,如微小的振動,這些振動預(yù)示著設(shè)備很可能出現(xiàn)問題。對于企業(yè)來說,定期維護(hù)比遇到導(dǎo)致生產(chǎn)停止的意外故障更具成本效益。
以上這些應(yīng)用顯示出邊緣計算的價值和作用,從目前的應(yīng)用發(fā)展情況來看,這樣的應(yīng)用需求越來越多,對智能化控制的需求也在增加,這就是邊緣AI的價值所在。而像英偉達(dá)這樣的企業(yè),其GPU等高性能芯片主要關(guān)注的是云計算和數(shù)據(jù)中心市場的AI服務(wù)器,對邊緣AI市場很少關(guān)注?;诖?,Tenstorrent等AI芯片公司就有機(jī)會了。
02、更多AI芯片公司挑戰(zhàn)英偉達(dá)
隨著各路玩家競相投入,AI芯片市場呈現(xiàn)百家爭鳴之勢。據(jù)統(tǒng)計,2019年全球AI芯片新創(chuàng)公司數(shù)量就已經(jīng)超過80家,總?cè)谫Y額超過35億美元。研究機(jī)構(gòu)預(yù)估,到2025年,ASIC將在AI芯片市場中占據(jù)43%的比重,GPU占29%,F(xiàn)PGA占19%,CPU占9%。
一批AI芯片新創(chuàng)公司正在崛起,前文提到的Tenstorrent就是典型代表;Cerebras Systems則打造了有史以來最大的芯片WSE(Wafer Scale Engine),搭載了1.2兆個晶體管,讓AI運算達(dá)到了前所未有的規(guī)模;明星公司Groq則由前Google工程師創(chuàng)立,專注于打造用于AI推理的低功耗處理器。
這里要介紹一下Tenstorrent的技術(shù)和產(chǎn)品,它特別看重低功耗,更適合邊緣AI應(yīng)用。據(jù)日經(jīng)新聞報道,Tenstorrent有望在2024年底發(fā)布其第二代多用途AI處理器,但沒有透露處理器的名稱。根據(jù)該公司2023年秋天發(fā)布的路線圖,打算發(fā)布其Black Hole獨立AI處理器和Quasar低功耗、低成本芯片。
早些年,但擔(dān)任Tenstorrent公司CTO的時候,Jim Keller就很看好低功耗的RISC-V架構(gòu),其團(tuán)隊基于此自研了Ascalon CPU。據(jù)悉,該公司的新一代Black Hole AI芯片是基于SiFive的X280 RISC-V核設(shè)計開發(fā)的。
Tenstorrent表示,即將推出的處理器之所以具有高效率和更低的成本,很重要的一個原因是避免使用高帶寬內(nèi)存(HBM),改用了GDDR6,這對于為AI推理設(shè)計的入門級AI處理器來說是很匹配的。也就是說,該公司的AI芯片架構(gòu)對內(nèi)存帶寬的消耗低于競爭對手,因此成本較低。
雖然Tenstorrent尚未搶占AI處理器市場的重要份額,但該公司具有成本效益且可擴(kuò)展的AI解決方案,可以滿足英偉達(dá)無法觸及的多種應(yīng)用需求。不止Tenstorrent,多家新創(chuàng)AI芯片公司也將在未來幾個季度推出類似應(yīng)用的·AI芯片產(chǎn)品??傊慌c英偉達(dá)正面競爭,越來越多的AI市場新進(jìn)入者更看重那些沒有被“綠色團(tuán)隊”占據(jù)的市場。
AI芯片的創(chuàng)新一直在進(jìn)行著,除了算力的提升,AI芯片在架構(gòu)、功耗、整合度等方面還有很大的優(yōu)化空間。例如,通過先進(jìn)的封裝技術(shù),多個AI芯片可緊密整合,可大幅提升系統(tǒng)帶寬和能效。AI專用的內(nèi)存技術(shù),如HBM、壓縮內(nèi)存等,也將得到更廣泛的應(yīng)用。
03、挑戰(zhàn)英偉達(dá)生態(tài)系統(tǒng)
除了芯片技術(shù)創(chuàng)新,AI的生態(tài)系統(tǒng)建設(shè)也很重要。英偉達(dá)的CUDA平臺經(jīng)過多年發(fā)展,已經(jīng)形成了龐大的開發(fā)者社區(qū)和豐富的軟件資源,這是其競爭力的重要保證。
其他廠商也紛紛跟進(jìn),圍繞自己的AI芯片建構(gòu)生態(tài)系統(tǒng),爭取開發(fā)者的支持。Google推出了基于TPU的TensorFlow深度學(xué)習(xí)框架,并開源了相關(guān)代碼;AMD收購了Xilinx;英特爾推出了OneAPI開發(fā)工具套件,試圖統(tǒng)一CPU、GPU和AI加速器的程序開發(fā)接口。
Arm、英特爾、高通、三星等合作組建了統(tǒng)一加速基金會(UXL),目標(biāo)之一就是取代英偉達(dá)的方案。
在AI系統(tǒng)當(dāng)中,芯片互聯(lián)技術(shù)很關(guān)鍵,特別是數(shù)據(jù)傳輸帶寬,對系統(tǒng)性能的發(fā)揮起著重要作用。英偉達(dá)在這方面一直在建設(shè)自家生態(tài),該公司最新的Blackwell GPU在多芯片互連、網(wǎng)絡(luò)互連方面,將使用新推出的NVLink標(biāo)準(zhǔn)協(xié)議,在數(shù)據(jù)中心網(wǎng)絡(luò)中,英偉達(dá)使用的是自家的InfiniBand總線。
對于英偉達(dá)這種封閉的生態(tài)系統(tǒng),Jim Keller很看不慣,他是開放技術(shù)的忠實擁躉,對于那些封閉技術(shù)深惡痛絕。
Jim Keller提出,英偉達(dá)不應(yīng)該使用私有的NVLink標(biāo)準(zhǔn)協(xié)議,應(yīng)該換成開放的以太網(wǎng)標(biāo)準(zhǔn),他還認(rèn)為,在數(shù)據(jù)中心網(wǎng)絡(luò)中,英偉達(dá)不該使用InfiniBand,也應(yīng)換成以太網(wǎng),因為Infiniband雖然具備低延遲、高帶寬(最高可達(dá)200Gb/s)特性,但以太網(wǎng)能做到400Gb/s,甚至800Gb/s。
實際上,AMD、博通、英特爾、Meta、微軟、甲骨文等巨頭正在合作開發(fā)下一代超高速以太網(wǎng)(Utlra Ethernet),其吞吐量更高,更適合AI、HPC應(yīng)用。
那么,新的以太網(wǎng)技術(shù)能否發(fā)展起來,并抗衡英偉達(dá)的互聯(lián)技術(shù)呢?
2023年7月,多家行業(yè)巨頭成立了超級以太網(wǎng)聯(lián)盟(Ultra Accelerator Link,UALink),旨在與英偉達(dá)的InfiniBand抗衡。
AMD正在為UALink努力貢獻(xiàn)更廣泛的Infinity Fabric共享內(nèi)存協(xié)議和GPU專用xGMI,所有其他參與者都同意使用Infinity Fabric作為加速器互連的標(biāo)準(zhǔn)協(xié)議。英特爾高級副總裁兼網(wǎng)絡(luò)和邊緣事業(yè)部總經(jīng)理Sachin Katti表示,由AMD、Broadcom、Cisco Systems、Google、Hewlett Packard Enterprise、英特爾、Meta Platforms和Microsoft組成的Ultra Accelerator Link“推廣小組”正在考慮使用以太網(wǎng)的第一層傳輸協(xié)議和Infinity Fabric作為將GPU內(nèi)存鏈接到類似于CPU上的NUMA的巨大共享空間的一種方式。
UALink聯(lián)盟成員相信,系統(tǒng)制造商將創(chuàng)建使用UALink的設(shè)備,并允許在客戶構(gòu)建他們的Pod時將來自許多參與者的加速器放入這些設(shè)備中。您可以有一個裝有AMD GPU的pod,一個裝有英特爾GPU的pod,另一個裝有一些來自其他廠商的自定義加速器的pod。該設(shè)備可以實現(xiàn)服務(wù)器設(shè)計的通用性,就像Meta Platforms和Microsoft發(fā)布的開放加速器模塊(OAM)規(guī)范一樣,系統(tǒng)板上的加速器插槽具備通用性。
據(jù)IDC統(tǒng)計,在超大規(guī)模企業(yè)、云構(gòu)建者、HPC中心和大型企業(yè)中,200Gb/s和400Gb/s網(wǎng)絡(luò)的建設(shè)已經(jīng)足夠多,InfiniBand和以太網(wǎng)市場可以同時增長。
以太網(wǎng)無處不在——邊緣側(cè)和數(shù)據(jù)中心——這與 InfiniBand不同,后者專門用于數(shù)據(jù)中心。IDC表示,2023年第三季度,數(shù)據(jù)中心以太網(wǎng)交換機(jī)的銷售額同比增長了7.2%。
在2022年第三季度到2023年第三季度期間,數(shù)據(jù)中心以太網(wǎng)交換機(jī)的市場規(guī)模約為200億美元,如果交換占InfiniBand收入的一半,那么數(shù)據(jù)中心以太網(wǎng)交換規(guī)模仍比InfiniBand交換大7倍左右,并且,有越來越多的AI集群遷移到以太網(wǎng),它們正在蠶食InfiniBand的市占率。
IDC表示,在以太網(wǎng)交換機(jī)市場的非數(shù)據(jù)中心部分,銷售額增長更快,2023年第三季度增長了22.2%,前三個季度總共增長了36.5%,因為很多公司升級了園區(qū)網(wǎng)絡(luò)。
2023年第三季度,數(shù)據(jù)中心、園區(qū)和邊緣側(cè)的以太網(wǎng)交換機(jī)市場規(guī)模達(dá)到117億美元,同比增長了15.8%。配套以太網(wǎng)路由器市場下降了9.4%,這并不奇怪,因為路由器越來越多地使用包括交換和路由功能的商用芯片構(gòu)建。
在數(shù)據(jù)中心,200Gb/s和400Gb/s以太網(wǎng)交換機(jī)的銷售額同比增長了44%,端口出貨量同比增長了63.9%。數(shù)據(jù)中心、邊緣側(cè)和園區(qū)的100Gb/s以太網(wǎng)交換機(jī)的銷售額增長了6%。
04、結(jié)語
英偉達(dá)在云計算和數(shù)據(jù)中心AI系統(tǒng)方面的優(yōu)勢非常明顯,無論是芯片行業(yè)巨頭,還是新創(chuàng)公司,要想在這一賽道與英偉達(dá)PK,難度很大,特別是新創(chuàng)公司,前些年以英偉達(dá)GPU為競品,走同一賽道的幾家小公司,日子過得都不太好,有的甚至在破產(chǎn)邊緣。只有AMD、英特爾這樣的大廠可以在同一賽道與英偉達(dá)玩一玩。
云計算和數(shù)據(jù)中心AI賽道不好追,那就主攻低功耗、低成本的邊緣側(cè)應(yīng)用市場,這也是一個很大的市場,且發(fā)展空間廣闊,而目前市場上對口、適用的芯片又不多。在這種情況下,誰動手早,盡快拿出實用的產(chǎn)品,誰就能在未來競爭中占得先機(jī)。
除了AI芯片,互聯(lián)技術(shù)和標(biāo)準(zhǔn)也是一個很有潛力的投資方向,而且在數(shù)據(jù)中心和邊緣側(cè)都有機(jī)會。英偉達(dá)的互聯(lián)和總線技術(shù)不可能面面俱到,隨著AI技術(shù)不斷滲透到各行各業(yè),以及各個性能、功耗和成本應(yīng)用層級,芯片和系統(tǒng)互聯(lián)的發(fā)展空間會越來越大,大大小小的公司都在摩拳擦掌。