文丨獵云網(wǎng) 邵延港
市值超1.7萬億美元的AI軍火商英偉達(dá), 開始感覺到“危機(jī)”,需要警惕各路“對手”們了。
幾天前,孫正義被曝計劃籌資1000億美元,創(chuàng)立一家AI芯片企業(yè),旨在挑戰(zhàn)英偉達(dá)。近日,一家AI芯片創(chuàng)業(yè)公司Groq,也透露了要顛覆的英偉達(dá)的意愿。
英偉達(dá)在AI芯片市場如入無人之境,2024財年,英偉達(dá)的銷售額已經(jīng)連續(xù)三個季度實現(xiàn)三位數(shù)的同比增長。毫無疑問,能夠讓英偉達(dá)近一年多瘋狂的資本,來自當(dāng)前市場中持續(xù)高漲AI大模型風(fēng)口。連續(xù)多個季度的亮眼財報,英偉達(dá)的市值一路狂飆,近一年的區(qū)間漲幅超過2.3倍。
這一切都與數(shù)據(jù)中心人工智能驅(qū)動的支出速度有關(guān),因為英偉達(dá)的GPU是運行生成式人工智能應(yīng)用程序的唯一選擇。
但“市場苦英偉達(dá)久矣”,憑借超高的算力性能和量產(chǎn)交付能力,英偉達(dá)獨占全球90%的AI芯片市場份額,遙遙領(lǐng)先競爭對手,很多時候還“一卡難求”。
現(xiàn)在,不光是AMD、英特爾等傳統(tǒng)芯片巨頭在籌劃搶占英偉達(dá)的市場,微軟、Open AI、谷歌等AI巨頭,以及像Groq、Cerebras等這樣實力強勁的初創(chuàng)公司也在劍走偏鋒,與英偉達(dá)一較高下。
現(xiàn)在,又一個能夠讓英偉達(dá)警惕的對手出現(xiàn)了。
近日,一家名為Groq的美國AI芯片企業(yè)站在聚光燈下,推出來當(dāng)前最快的大模型推理芯片LPU。從數(shù)據(jù)來看,Groq自研LPU推理速度是英偉達(dá)GPU的10倍,甚至成本只有其1/10。
很對,Groq就在國內(nèi)外網(wǎng)絡(luò)上刷屏,使用者的直觀反饋就是快?;贕roq自研芯片可以做到在大模型推理時每秒處理將近500個token,幫助Groq的大模型輸出速度比GPT-3.5快18倍。
的橫空出世打了英偉達(dá)一個出其不意。美東時間2月20日,英偉達(dá)股價收報694.52美元/股,跌4.35%,盤中跌幅接近7%。
英偉達(dá)現(xiàn)在已經(jīng)在對手的包圍圈中,Groq出其不意地給了當(dāng)頭一棒,那它能成為英偉達(dá)的替代嗎?
比英偉達(dá)速度快10倍,能替代英偉達(dá)嗎?
Groq能夠刷屏的重要原因,就是快。
今年1月份,Groq進(jìn)行了大模型推理性能的首次測試,Meta AI 的 Llama 2 70B 大模型在 Groq LPU推理引擎上運行,其性能優(yōu)于所有其他基于云的推理提供商,輸出token量提高了 18 倍。
2月份,Groq進(jìn)行了第二次大模型基準(zhǔn)測試,這次是 Artificial Analysis.ai,測試顯示,Groq 在幾乎所有類別中都優(yōu)于其他推理引擎提供商。
目前,Groq已經(jīng)在官網(wǎng)開放免費使用,從社交平臺上使用者的反饋來看,確實很快。此前的AI生成內(nèi)容需要一些時間緩沖,但在Groq開放的云服務(wù)體驗平臺上,幾乎感覺不到卡頓。
Groq能做到這一點,依靠的是其自研的特殊芯片,這款芯片是Groq專為大模型而研制,團(tuán)隊將其定義為語言處理單元,即LPU。
據(jù)悉,LPU不同于英偉達(dá)的GPU,它是專為圖形渲染而設(shè)計、包含數(shù)百個核心的并行處理器,能夠為AI計算提供穩(wěn)定的性能。其核心技術(shù)是TSP微架構(gòu)設(shè)計,全稱叫做張量流處理器,TSP通過獨特的功能切片設(shè)計、確定性執(zhí)行以及軟件定義的方法來實現(xiàn)高性能和高效率的張量計算。
Groq的思路是通過TSP設(shè)計專用于AI推理的芯片,業(yè)界叫ASIC。由于工作原理與主流的GPU不同,LPU無需像GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù),它使用的是SRAM,其速度比GPU所用的存儲器快約20倍。
根據(jù)相關(guān)報道,Groq設(shè)計的第一款TSP ASIC實現(xiàn)了超過每平方毫米硅片1萬億次操作/秒的計算密度,在900 MHz的標(biāo)稱時鐘頻率下,這款25×29 mm的14nm芯片運行時表現(xiàn)卓越。在ResNet50圖像分類任務(wù)上,TSP能夠在批次大小為1的情況下達(dá)到每秒處理20.4K張圖片的速度,相較于現(xiàn)代GPU和其他加速器,性能提升了4倍。
據(jù)Groq的測試結(jié)果,其LPU運行的大模型生成速度接近每秒500 tokens,碾壓ChatGPT-3.5大約40 tokens/秒的速度。極限情況下,Groq的Llama2 7B甚至能實現(xiàn)每秒750 tokens,為GPT-3.5的18倍。
雖說天下武功唯快不破,但只是快,并不能讓Groq將英偉達(dá)挑于馬下。
AI科學(xué)家賈揚清近日在社交平臺上發(fā)文稱,因為Groq小得可憐的內(nèi)存容量(230MB),在運行Llama-2 70b模型時,需要305張Groq卡才足夠,而用H100則只需要8張卡。從目前的價格來看,這意味著在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
Groq背后:谷歌TPU團(tuán)隊離職創(chuàng)業(yè)
對于創(chuàng)業(yè)者來說,想要與巨頭競爭,更好的方式是差異化競爭,盡管在顛覆英偉達(dá)的實力上還遭受質(zhì)疑,但Groq也為“挑戰(zhàn)英偉達(dá)的算力霸權(quán)”提供了思路。
Groq作為一家在加州山景城創(chuàng)立8年的初創(chuàng)公司,很早之前便是芯片市場備受矚目的存在。
Groq的CEO是被稱為“TPU之父”的前谷歌員工喬納森·羅斯。喬納森·羅斯參與的谷歌TPU項目,曾開發(fā)了谷歌的張量處理器。2016年,谷歌將該芯片用于其數(shù)據(jù)中心使用的定制機(jī)器學(xué)習(xí)芯片。后來,該芯片幫助谷歌的AlphaGo擊敗了韓國圍棋選手李世石。
從那場“人機(jī)大戰(zhàn)”起,AI闖入更多普通人的世界,全球包括中國也掀起了一輪AI浪潮。
2016年,喬納森·羅斯從谷歌離職,在加州創(chuàng)辦了Groq。值得注意的是,Google TPU項目的十個原始成員中,有八個人也加入了Groq團(tuán)隊。喬納森·羅斯等人的目標(biāo)是在Groq復(fù)制他在谷歌的成功經(jīng)驗。
來源:Groq官網(wǎng)截圖
這支團(tuán)隊實力強勁卻非常低調(diào)。2017年4月,才有媒體報道稱,Groq拿到了風(fēng)險投資家查瑪斯·帕里哈皮迪亞等人投資的的1030萬美元的啟動資金,Groq才漸漸出現(xiàn)在公眾視野。
這支團(tuán)隊也很任性,敢直接放市場“鴿子”。2017年,Groq宣布將在次年,也就是2018年發(fā)布第一代AI芯片產(chǎn)品,當(dāng)時這款芯片號稱運算速度將可以達(dá)到400 TOPS,每瓦特能進(jìn)行8萬億次的運算。而當(dāng)時谷歌最新一代的TPU算力才達(dá)到180TOPS,這意味著Groq性能將超谷歌TPU兩倍還多。
由于創(chuàng)始團(tuán)隊都出自谷歌TPU團(tuán)隊,當(dāng)時谷歌也是在約14個月的時間里發(fā)布首個TPU,所以對于Groq的flag并沒有質(zhì)疑。
但2018年,Groq并沒有拿出自己的芯片產(chǎn)品。
2019年9月,Groq被曝將參展美國計算機(jī)歷史博物館舉辦的AI硬件峰會,人們正期待Groq成為這場峰會的焦點時,Groq卻放了鴿子,沒有出席。喬納森·羅斯當(dāng)時的解釋是:他們本打算在AI硬件峰會上做演示,但他們不得不將資源轉(zhuǎn)移給客戶,無法進(jìn)行演示,因此他們決定退出。
好在在創(chuàng)立的前5年中,Groq順利開發(fā)出了第一款人工智能芯片,并將其投入市場,客戶遍及數(shù)據(jù)中心和自動駕駛領(lǐng)域,推進(jìn)了商業(yè)化進(jìn)程。
來源:Groq官網(wǎng)截圖
Groq再次吸引目光,是在2021年4月,彼時,Groq宣布籌集到3億美元融資,由Tiger Global Management和億萬富翁投資者丹·桑德海姆的D1 Capital領(lǐng)投。該輪融資使Groq的估值超過10億美元,而當(dāng)時,Groq的團(tuán)隊才只有100多人。
近年來,資本市場一直在證明新的產(chǎn)品路徑比英偉達(dá)的GPU更適合于AI,Groq也一直被推為挑戰(zhàn)英偉達(dá)的主力軍之一。對于能否超越并替代英偉達(dá),Groq似乎也有信心,因為一名自稱Groq工作人員的用戶在互動時表示,要在3年內(nèi)趕超英偉達(dá)。
對于英偉達(dá)來說,獨特的市場地位,讓其一直處在被圍攻的地位,不知道這次黃仁勛能扛過來嗎?