文|融中財經(jīng) 鄭偉
編輯|吾人
全球范圍內(nèi),“百模大戰(zhàn)”不斷升級,高端AI算力卡成為“硬通貨”。以英偉達為例,依據(jù)當前訂單情況和生產(chǎn)進度,現(xiàn)階段的A800/H800交貨時間都已經(jīng)排到了今年年底與明年年初。英偉達(Nvidia)徹底“贏麻了”,也一度掀起資本追逐人工智能芯片的熱潮。
近日,位于硅谷的人工智能芯片初創(chuàng)公司D-Matrix就成功收獲1.1億美元(約合8.02億元人民幣)的B輪融資。此次融資領投方是新加坡頭部投資集團淡馬錫(Temasek),微軟、三星等知名科技巨頭以及加州Playround Global等眾多風險投資公司則紛紛跟投。此前,D-Matrix亦曾受到來自Marvell、海力士、愛立信等知名科技企業(yè)的投資。
01 進擊中的D-Matrix
成立于2019年的D-Matrix,是一家為滿足數(shù)據(jù)中心高性能計算和人工智能算力而組建的芯片初創(chuàng)企業(yè),此前一直專注于定制AI芯片的研發(fā)。其使命是憑借創(chuàng)新性的“數(shù)字存算一體(DIMC)”架構,來解決計算-存儲集成問題,從而提高人工智能算力的效率。
D-Matrix由兩位經(jīng)驗豐富的AI硬件專家Sid Sheth(創(chuàng)始人兼首席執(zhí)行官)和Sudeep Bhoja(創(chuàng)始人兼首席技術官)領導。兩位創(chuàng)始人在半導體領域有著超過20年的從業(yè)經(jīng)歷,曾在半導體巨頭博通擔任過總監(jiān)職位,并在國際半導體公司Inphi(現(xiàn)已被Marvell收購)擔任過高管職位。
業(yè)績方面,D-Matrix已經(jīng)出貨了超過1億顆芯片,收益突破了10億美元(約合72.92億元人民幣)。根據(jù)著名數(shù)據(jù)分析公司Crunchbase的調(diào)查顯示,D-Matrix現(xiàn)僅擁有11-50名員工。盡管員工數(shù)量相對較少,但自從OpenAI憑借ChatGPT成功擊敗Google之后,此類以少勝多的情況似乎變得更為常見了。
通過“數(shù)字存算一體”架構,D-Matrix的芯片能夠確保高效的AI代碼運行,簡化數(shù)據(jù)處理流程,并實現(xiàn)對生成式AI(AIGC)需求的無縫響應。這些經(jīng)過優(yōu)化后的AI定制芯片,可以為OpenAI的ChatGPT等AIGC應用提供最佳的算力支持,這也是D-Matrix的市場潛力所在。
不過,為了在現(xiàn)階段避免與英偉達的直接競爭,D-Matrix的技術瞄準了人工智能處理的“推理”部分,而不是AI大模型的訓練部分。AI推理階段,是指利用訓練好的模型,通過輸入新數(shù)據(jù)來推理出各種結論的過程。借助神經(jīng)網(wǎng)絡模型進行計算,利用輸入的新數(shù)據(jù)來一次性獲得正確結論的過程。這也過程也被稱為預測或推斷。
一般來說,根據(jù)承擔任務的不同,AI芯片可被分為訓練AI芯片和推理AI芯片。其中,訓練芯片被用于構建神經(jīng)網(wǎng)絡模型,注重絕對的計算能力。在此領域,英偉達占據(jù)了強勢的市場主導地位。據(jù)最新數(shù)據(jù)顯示,在全球AI訓練芯片市場,英偉達可占到80%到95%份額。而推理芯片,則是利用神經(jīng)網(wǎng)絡模型進行推理預測,產(chǎn)品往往更注重綜合指標,如單位能耗算力、時延、成本等各方面表現(xiàn)都要考慮。D-Matrix主打的就是后者。
對于此次融資,D-Matrix創(chuàng)始人兼首席執(zhí)行官Sid Sheth向媒體表示,D-Matrix計劃將新資金投資于旗艦產(chǎn)品Corsair平臺的商業(yè)化和人才招募。該平臺是一款PCI外形的算力卡,采用DIMC架構和芯粒(Chiplet)技術,其創(chuàng)新性地支持將AI模型完全存儲于內(nèi)存中,可有效提高推理效率,并降低功耗和成本。
Corsair平臺參數(shù)(圖片來自于www.d-matrix.ai)
Corsair計劃于2024年全面推出,其可以與機器學習工具鏈和相關服務器軟件配合使用。這些軟件主要由開源軟件構建。用戶只需簡單操作,即可快速將AI模型導入到卡中,無需重新訓練。
02 PK英偉達最強GPU,性能超9倍
盡管GPU在游戲和“挖礦(生產(chǎn)加密貨幣)”方面表現(xiàn)出色,但對于AIGC來說,并非都是最佳選擇。比如運行AI推理時,往往需要大量特定的內(nèi)存帶寬,而GPU的大部分時間處于空閑狀態(tài),只是等待更多數(shù)據(jù)從DRAM中傳輸出來。這就為AI推理設置了性能上限,不僅讓吞吐量降低,延遲也會增加,同時還需要額外能量來提高功率和冷卻成本。截至目前上述情況仍未有太大的變化,很多企業(yè)仍然依靠堆大量的GPU去做AI訓練和推理,導致成本負擔高企。
以OpenAI為例,就身陷有熱度、沒收入的囧地。有報告指出,ChatGPT每天要燒錢約70萬美元(約合509.65萬元人民幣),而這個數(shù)字還不包括招募和支付頂尖人才的薪資費用。以這樣的燒錢速度算,OpenAI甚至難以維持到明年年底。
OpenAI后續(xù)具體如何規(guī)劃尚未可知,D-Matrix卻早已為AI推理的降費增效謀劃了新路徑。D-Matrix的旗艦產(chǎn)品Corsair C8卡包括2048個DIMC內(nèi)核、1300億個晶體管和256GB LPDDR5 RAM。它擁有2400至9600 TFLOPS(每秒浮點運算次數(shù))的計算性能,芯片間帶寬為1TB/s。憑借在計算架構、電源能耗和低延遲軟件堆棧方面的創(chuàng)新突破,D-Matrix的Corsair C8在實際測試中擊敗了Nvidia H100,吞吐量超越了9倍,而運行成本則降低了10倍至20倍,甚至在某些情況下可以降低60倍。
實測中Corsair C8吞吐量超越Nvidia H100的9倍(圖片來自于www.d-matrix.ai)
舉個例子,如果有人想使用LLaMA2生成與維基百科一樣多的內(nèi)容,她需要生成57億個詞元(Tokens)才能最終達到維基百科43億個單詞的量級。但是通過使用D-Matrix解決方案的單個推理節(jié)點,AI大模型可以在18小時內(nèi)產(chǎn)出整個維基百科的數(shù)據(jù)量。
如果將 D-Matrix 技術與微軟低代碼強化學習平臺 Project Bonsai 相結合,甚至還可以圍繞 DIMC平臺創(chuàng)建高效編譯器。Project Bonsai提供了訓練有素的RL代理的快速原型設計、測試和部署,以加速編譯器堆棧的開發(fā)過程。同時,結合D-Matrix的低功耗AI推理技術,該技術可提供比舊架構高出10倍的能效,使得編譯器的性能得到顯著提升。
Sid Sheth表示:“目前由于推理成本較高,生成式人工智能在商業(yè)上的應用仍面臨著挑戰(zhàn),但是通過新的資金注入,我們將能夠比其他競爭對手更快地將商業(yè)上可行的解決方案推向市場?!?/p>
微軟作為D-Matrix的投資方,表示將在明年采用D-Matrix的AI芯片到相關業(yè)務上,以緩解算力不足的問題。有機構預測,未來兩年內(nèi),D-Matrix的年收入有望達到70~75萬美元(約合509.65~546.05萬元人民幣)。
03 大魚吃小魚,小魚未必找得到蝦米
今年,像D-Matrix這樣幸運地拿到融資的美國芯片初創(chuàng)公司,實際上已是少數(shù)。隨著英偉達在AI芯片市場上主導地位日益顯現(xiàn),相關領域的芯片初創(chuàng)企業(yè)的日子并不好過,融資時遭遇挑戰(zhàn)更是家常便飯。數(shù)據(jù)統(tǒng)計,在2023年第二季度,芯片領域初創(chuàng)公司在美國的融資交易數(shù)量上較2022年同期暴降了80%。
對于芯片初創(chuàng)公司來說,將芯片從最初的設計階段推進到商用階段,可能至少需要超過5億美元(約合36.41億元人民幣)的投資,而一旦出現(xiàn)投資者無法履約或者撤資,將快速切斷這些初創(chuàng)公司的現(xiàn)金流,導致生存危機。對于投資者來說,此類芯片初創(chuàng)公司不僅投資回報周期長,風險還極高,所以在全球經(jīng)濟低迷的大環(huán)境下,往往更不愿大量投入資金。
根據(jù)風險資本調(diào)研公司PitchBook的數(shù)據(jù)顯示,截至今年8月底,美國的芯片初創(chuàng)企業(yè)僅僅融資8.814億美元,而在2022年的前三個季度為17.9億美元。交易數(shù)量也從23宗降至4宗。
以AI芯片初創(chuàng)公司Mythic為例,此前共融資約1.6億美元,但到2022年時,現(xiàn)金已消耗殆盡,公司運營面臨停擺。所幸在今年3月份,該公司成功獲得了新的投資,盡管只有1300萬美元。
Mythic首席執(zhí)行官Dave Rick表示,英偉達“間接”加劇了整個AI芯片行業(yè)的融資困境,因為投資者往往期待“投資那些回報豐厚的項目”。而英偉達的一家獨大,疊加全球經(jīng)濟消極影響因素,讓周期性的半導體行業(yè)雪上加霜。
有芯片從業(yè)人員指出,現(xiàn)階段想融資愈發(fā)艱難,投資者會提出更為嚴苛的要求。比如公司需要至少擁有一種成熟產(chǎn)品,這個產(chǎn)品要么已經(jīng)在市場上銷售,要么有能力在幾個月內(nèi)發(fā)布。另外,在融資金額方面也大不如前。今年以來,對芯片初創(chuàng)公司的金額僅在1億美元左右,而在2年前,對于芯片初創(chuàng)企業(yè)的新投資往往能夠達到2億或3億美金。
而如D-Matrix這樣的創(chuàng)業(yè)公司似乎也不敢同英偉達正面硬剛,選擇了AI推理芯片賽道一樣?!爸挥猩贁?shù)公司真正有機會與英偉達競爭,”正如業(yè)內(nèi)分析師Karl Freund表示。“D-Matrix 就是其中之一。他們使用不同的技術、不同的架構,似乎可以產(chǎn)生更好的結果?!?/p>
04 存算一體受青睞,國內(nèi)玩家知多少
實際上,D-Matrix備受關注的原因,一方面是面向AI推理的性能優(yōu)勢,另一方面采用了更加適合AI計算的存算一體理念。而“存算一體”并不是近幾年才被提出的新概念。早在上個世紀70年代,存算一體就已經(jīng)被提出,只是受限于當時的芯片制造技術和算力需求,這一設想僅停留在理論研究階段。直到進入大數(shù)據(jù)和人工智能時代,巨大的算力需求為存算一體架構的發(fā)展提供了新的舞臺。
當前,市面上的傳統(tǒng)芯片普遍都采用馮諾依曼架構。該架構的特點是將處理單元和存儲單元分開,需要進行計算時,處理單元從存儲單元中讀取數(shù)據(jù)進行處理,處理完成后再將數(shù)據(jù)返回存儲單元。然而,存算一體架構將存儲單元和處理單元合二為一,將數(shù)據(jù)和計算融合在同一片區(qū)域內(nèi)。這樣做的好處是可以直接利用存儲器進行數(shù)據(jù)處理,從根本上消除了馮諾依曼架構計算存儲分離的問題。尤其在現(xiàn)代大數(shù)據(jù)和大規(guī)模并行的應用場景中,存算一體架構非常適用。
目前,國內(nèi)外很多企業(yè)紛紛展開存算一體技術的研發(fā),其中包括英特爾、IBM、華為、三星、阿里巴巴、SK海力士、美光、臺積電等一眾知名公司,幾乎都在積極布局近存計算領域。據(jù)不完全統(tǒng)計,A股市場中涉及存算一體技術的公司,包括東芯股份、恒爍股份、羅普特、首都在線、長電科技、瀾起科技和潤欣科技等。同時,國內(nèi)初創(chuàng)公司如千芯科技、億鑄科技、知存科技、蘋芯科技和后摩智能等均獲資本市場青睞,其中多家更是連續(xù)兩年獲得融資支持。
以千芯科技為例,就已擁有面向數(shù)據(jù)中心的大算力計算板卡和計算IP核,以及多并發(fā)實例核心技術(該技術NVIDIA在2019年集成入GPU)。其可支持ARM核心Stacking,具備輕量GPU技術,可基于SRAM/RRAM/MARM存儲單元,可為客戶提供靈活易用的AI推理計算加速及一站式解決方案。通過千芯科技自研存算一體技術,可提供能效比超過10-100TOPS/W,優(yōu)于其他類型AI芯片 10-40倍的吞吐量支持。
盡管全球范圍內(nèi)無論學術界還是工業(yè)界都開始對存算一體展開資源投入,但在大模型火起來之前,存算一體的研究還是相對零散的技術攻關,缺乏面向大算力方向的整體布局,亦缺乏主導的應用需求驅(qū)動,因此距離大規(guī)模進入市場或許還需要一定的時間。
不過令人期待的是,大模型已然成為存算一體大算力芯片的核心應用場景,而它對算力能效和密度有強烈需求,這正是存算一體的優(yōu)勢所在。為了面向大模型的部署,芯片從業(yè)者更需要對存算一體進行體系化布局,包括算法、框架、編譯器、工具鏈、指令集、架構、電路等各個層次方面的協(xié)同設計,以形成全棧式的體系、工具鏈和生態(tài)鏈。相信隨著存算一體芯片技術的進一步落地應用,AI大模型必將獲得新的性能飛躍,從而推動數(shù)智化時代的加速到來。