正在閱讀:

留給傳統(tǒng)云計(jì)算巨頭的時(shí)間不多了

掃一掃下載界面新聞APP

留給傳統(tǒng)云計(jì)算巨頭的時(shí)間不多了

AI云與傳統(tǒng)云,不僅是一場(chǎng)技術(shù)的較量,也是商業(yè)模式的爭(zhēng)奪。

文|新眸 李小東

CoreWeave的大火被看作是AI云注定顛覆傳統(tǒng)云計(jì)算的一個(gè)開端。

從七年前的挖礦公司,長(zhǎng)成一家AI云廠商,這被外界看來符合自身技術(shù)路線的轉(zhuǎn)型,加上與英偉達(dá)的曖昧關(guān)系,助推CoreWeave——一家規(guī)模不算龐大的公司,在短時(shí)間內(nèi)估值達(dá)到190億美元,就在5個(gè)月前,它的估值才剛剛70億美元。

短時(shí)間內(nèi)估值翻倍的背后,是全球 GPU 加速云基礎(chǔ)設(shè)施的爆炸性需求,以及當(dāng)前的AI融資狂潮。和傳統(tǒng)云計(jì)算廠商賣計(jì)算資源、存儲(chǔ)空間和各種云服務(wù)不同,CoreWeave專注GPU云計(jì)算,特別是與AI領(lǐng)域的緊密聯(lián)系。

簡(jiǎn)單來說,現(xiàn)在因?yàn)樯墒紸I(如聊天機(jī)器人、圖像生成等)越來越火,訓(xùn)練和運(yùn)行這些AI模型需要大量的計(jì)算能力。GPU(圖形處理器)因?yàn)槟芡瑫r(shí)處理很多任務(wù),成為了這類計(jì)算的優(yōu)選硬件。

但事實(shí)上,買GPU和維護(hù)它并不便宜,所以很多人會(huì)選擇使用云計(jì)算服務(wù)。像亞馬遜AWS、谷歌云和微軟Azure這樣的主流公司都提供了特別為AI工作準(zhǔn)備的GPU。但人們發(fā)現(xiàn),有些專門提供GPU服務(wù)的小公司,比如CoreWeave,比那些大公司更便宜。

舉個(gè)例子,據(jù)媒體報(bào)道,在CoreWeave上租用一款流行的GPU,每小時(shí)不到2.4美元,但在AWS和谷歌云上都要花費(fèi)3.5美元左右。換句話說,細(xì)微的價(jià)差和龐大的市場(chǎng)需求,正在將Gartner提到的“GPU即服務(wù)(GAAS)”這樣一個(gè)新的概念,日漸催化成了一個(gè)龐大的市場(chǎng)。

2024年,CoreWeave公司官方預(yù)測(cè)年度營(yíng)收約24億美元,前兩年分別是3000萬和5億,雖然體量上和AWS這些巨頭相去甚遠(yuǎn),但夸張的增長(zhǎng)態(tài)勢(shì),已經(jīng)不得不讓所有人對(duì)這個(gè)新興的行業(yè)側(cè)目。

01 顛覆傳統(tǒng)云廠商的鏟子從哪來?

CoreWeave之所以能被稱為算力黃牛,是因?yàn)榇饲翱客诘V積累了大量的GPU。

簡(jiǎn)單來說,挖以太坊就像是一個(gè)巨大的數(shù)學(xué)競(jìng)賽,礦工使用計(jì)算機(jī)(特別是像英偉達(dá)這樣的高性能GPU)來解一個(gè)叫“哈希函數(shù)”的難題。當(dāng)他們用自己的GPU找到答案時(shí),就贏得了一次挖礦的勝利,獎(jiǎng)勵(lì)就是以太幣。

挖礦是一門技術(shù)活,更是體力活,為了獲得更多的以太幣,要挖更多的礦,與傳統(tǒng)的CPU相比,GPU具有更高的并行處理能力和更強(qiáng)的計(jì)算性能,能夠更快地執(zhí)行復(fù)雜的加密算法。英偉達(dá)的GPU因卓越的性能和效率,成為了礦工們的首選鏟子。

CoreWeave的三名創(chuàng)始人Michael Intrator、Brian Venturo和Brannin McBee都是華爾街背景,關(guān)注金融和科技領(lǐng)域,五年的挖礦經(jīng)歷,讓他們通過各種方式獲得了數(shù)萬張高性能顯卡,建立了不少數(shù)據(jù)中心。截至2018年末,CoreWeave部署超過5萬張GPU,并且在挖礦逐漸沒落的同時(shí),借助算力資源轉(zhuǎn)型做起了云計(jì)算的生意。

將CoreWeave和英偉達(dá)推向高峰的chatgpt,更準(zhǔn)確地說是預(yù)訓(xùn)練大模型,因?yàn)橛?xùn)練這些大模型的數(shù)據(jù)量極其龐大,過程可以被拆解成不同的小任務(wù),這就非常適合GPU做。產(chǎn)量有限,一個(gè)成本約3000美元的H100顯卡可以賣到十倍價(jià)格。

據(jù)媒體報(bào)道,從宣布加入英偉達(dá)合作伙伴網(wǎng)絡(luò)計(jì)劃,到拿到首批英偉達(dá)HGX H100高性能計(jì)算平臺(tái),再到掌握將英偉達(dá) H100作為抵押品獲得融資,CoreWeave只用了不到三年。

之所以被英偉達(dá)青睞,外界普遍認(rèn)為的核心是:在面對(duì)來自英特爾、AMD等半導(dǎo)體巨頭以及OpenAI、微軟等下游客戶自研芯片的壓力下,英偉達(dá)不得不既要抵御云廠商造芯片,又要進(jìn)一步擴(kuò)大GPU市場(chǎng)份額。所以芯片廠通過扶持不造芯片的CoreWeave、Lambda Labs等較小的云服務(wù)商,從而與微軟等巨頭能夠形成間接競(jìng)爭(zhēng)。

按照這樣的邏輯,巨頭在尋求GPU資源時(shí),如果只能通過CoreWeave等公司間接獲取,那么將需要支付更多的費(fèi)用,包括購(gòu)買GPU的費(fèi)用以及使用CoreWeave等公司的服務(wù)費(fèi)用。典型的例子就像剛與CoreWeave簽訂長(zhǎng)期合作協(xié)議的微軟,這樣一來,作為最上游的英偉達(dá)仍然掌握最高的議價(jià)權(quán)。

CoreWeave依賴英偉達(dá)發(fā)財(cái),就連它的創(chuàng)始人也坦然承認(rèn):“世界都在依賴英偉達(dá),雖然我們也在了解不同的芯片和解決方案,但事實(shí)上,客戶明確表示,目前他們需要構(gòu)建產(chǎn)品和AI芯片類型,很大程度上是由英偉達(dá)基礎(chǔ)設(shè)施推動(dòng)的?!?/p>

但回過頭來,這些其實(shí)還不足以論證CoreWeave被市場(chǎng)看好的根本原因。

本質(zhì)上,押注CoreWeave的英偉達(dá)、前蘋果高管、黑石等大量的資本,他們篤定另一個(gè)預(yù)判,傳統(tǒng)的云服務(wù)商將被更新興的AI云替代。

AI軟件的發(fā)展速度非常迅猛,開發(fā)的訓(xùn)練過程需要更強(qiáng)大的計(jì)算資源,和更高效的云基礎(chǔ)設(shè)施來支持不斷增長(zhǎng),就連被定義為AI超大規(guī)模計(jì)算提供商的CoreWeave,有大量的GPU等設(shè)施,仍然供不應(yīng)求。

就當(dāng)前來看,現(xiàn)有的云基礎(chǔ)設(shè)施大多是為可序列化工作負(fù)載設(shè)計(jì)的,它們更適合處理那些可以分解成一系列獨(dú)立步驟并依次執(zhí)行的任務(wù);但AI工作負(fù)載的特性并不一樣:它們通常需要進(jìn)行大量的并行計(jì)算,并且需要實(shí)時(shí)地處理大量的數(shù)據(jù)。

在CoreWeave的CTO看來,他們不僅擁有大量的GPU作為生產(chǎn)力工具,更重要的是其軟件技術(shù)非常先進(jìn),這是它能夠比其他公司更好地利用GPU服務(wù)器,確??蛻臬@得最佳性能的原因。

02 更靈活、更劃算,CoreWeave能滿足什么?

為什么選擇CoreWeave,它的官網(wǎng)上有很直接地回答:

CoreWeave是一家專門為企業(yè)級(jí)GPU加速工作負(fù)載提供云服務(wù)商。他們的Kubernetes原生基礎(chǔ)設(shè)施專為機(jī)器學(xué)習(xí)、VFX渲染、像素流和批處理等計(jì)算密集型用例而構(gòu)建,與傳統(tǒng)云廠商相比,速度最高可提高35倍,成本降低80%。

用創(chuàng)始人的Brannin的話簡(jiǎn)單來說,CoreWeave的云不是簡(jiǎn)單地加上GPU然后讓用戶能夠使用它。它其實(shí)是一個(gè)復(fù)雜的系統(tǒng),像是一個(gè)大舞臺(tái)的導(dǎo)演,管理著所有的資源和設(shè)備,讓用戶可以方便地訪問和使用這些資源。

這和那些大公司的云不同,因?yàn)閭鹘y(tǒng)云主要是為了托管網(wǎng)站和存儲(chǔ)數(shù)據(jù),而CoreWeave是從頭開始打造的,專注于運(yùn)行AI和其他需要大量并行計(jì)算的任務(wù)。這是它的核心優(yōu)勢(shì)之一,對(duì)以前不能參與的決策,客戶有更自由,“嚴(yán)格的資源配額和等待數(shù)小時(shí)才能啟動(dòng)GPU已經(jīng)成為過去,現(xiàn)在你可以在幾秒鐘內(nèi)調(diào)用、擴(kuò)大和縮小數(shù)千個(gè)GPU。”

Brannin喜歡打一個(gè)比喻,CoreWeave和傳統(tǒng)云廠的區(qū)別,就像特斯拉和福特汽車。福特當(dāng)然可以造出像特斯拉一樣的汽車,但這意味著他們需要經(jīng)歷范式轉(zhuǎn)變,因?yàn)樯婕暗氖钦麄€(gè)供應(yīng)鏈和整體業(yè)務(wù),需要推翻過去重新開始,且容易陷入創(chuàng)新者困境,大公司往往不愿這么做。

當(dāng)然,這種對(duì)AI的專一性,也直接造就了CoreWeave在給AI公司服務(wù)時(shí)的專業(yè)性。

CoreWeave的主要產(chǎn)品有7類,除了提供高性能計(jì)算平臺(tái)H100和最齊全的GPU,也提供CPU來滿足不同負(fù)載需求,還有完全托管的Kubernetes服務(wù),消除了客戶管理Kubernetes集群的負(fù)擔(dān),使他們能夠?qū)W⒂趹?yīng)用程序的開發(fā)和部署;以及NVMe文件系統(tǒng)卷,這種高性能存儲(chǔ)適用于分布式機(jī)器學(xué)習(xí)訓(xùn)練、VFX渲染、生命科學(xué)批處理和元宇宙像素流等工作負(fù)載。

除此以外,CoreWeave使用InfiniBand技術(shù)建立了高性能的網(wǎng)絡(luò),相當(dāng)于給每一輛車(GPU)搭建高速公路,能夠滿足大規(guī)模數(shù)據(jù)處理和傳輸?shù)男枨螅瑥亩兄贏I產(chǎn)品更快速地發(fā)展和規(guī)?;?/p>

客觀來講,CoreWeave的產(chǎn)品體系覆蓋了高性能計(jì)算的各個(gè)方面,從硬件資源到軟件服務(wù),讓模型訓(xùn)練、托管、微調(diào)以及推理服務(wù)變得簡(jiǎn)單。

至于具體的效果,對(duì)比A100,H100能將大型模型的AI訓(xùn)練速度提高9倍,推理速度提高三十倍。H100的性能目前維持在行業(yè)第一,這種速度,加上NVIDIA Quantum-2InfiniBand平臺(tái)在市場(chǎng)上最低的網(wǎng)絡(luò)延遲,將AI模型的訓(xùn)練時(shí)間縮短至幾天或幾小時(shí),而不是幾個(gè)月。

以做NFT的Procedural Space為例,這是數(shù)萬個(gè)獨(dú)特的、程序生成的行星NFT的集合。每個(gè)行星都是使用獨(dú)特的算法生成的,這些算法控制著行星的顏色、地形構(gòu)造、海洋、文明等,所有 Procedural Space 行星均制作為一分鐘的 4K 視頻,展示行星的完整旋轉(zhuǎn)。由于負(fù)載量大,幀速率為每秒30幀,因此需要1800萬個(gè)高分辨率幀。

以往他們用過其他的渲染引擎,但效果并不大好,但通過與CoreWeave合作,Procedural Space 能夠在短短一周內(nèi)渲染、存儲(chǔ)、壓縮、編碼和制作100GB的4K高分辨率圖像,而成本僅為原來的六分之一。

那為什么說CoreWeave是當(dāng)下AI公司最具性價(jià)比的選擇?

一方面,CoreWeave提供了業(yè)內(nèi)價(jià)格最低、最廣泛的NVIDIA GPU系列選擇,客戶可以根據(jù)自己的工作負(fù)載選擇合適的GPU,從而確保性能和成本的最優(yōu)化。并且與其他云提供商不同,CoreWeave 在絕大多數(shù)用例中不收取區(qū)域間傳輸、工作站數(shù)據(jù)或出口等費(fèi)用,這樣客戶就不用擔(dān)心數(shù)據(jù)傳輸會(huì)花很多錢。

另一方面,CoreWeave提供了按需定價(jià)模式,意味著客戶只需支付他們實(shí)際使用的資源費(fèi)用,無需簽訂長(zhǎng)期合同或做出任何承諾。這種靈活性使得客戶能夠根據(jù)自己的實(shí)際需求進(jìn)行擴(kuò)展或縮減,從而節(jié)省成本。如果客戶需要長(zhǎng)期或大量使用,他們還有折扣。這也就不難解釋,CoreWeave的云基礎(chǔ)設(shè)施的速度會(huì)比通用公共云快35倍,成本卻低了80%。

03 留給傳統(tǒng)云廠商的時(shí)間不多了

Brian Venturo作為CoreWeave的CTO,提到如果有一種新的芯片性能與英偉達(dá)相當(dāng)或更好,那意味著市場(chǎng)上出現(xiàn)了一個(gè)強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手。

想象一下,如果你家附近新開了一家和沃爾瑪一樣大的超市,那么沃爾瑪?shù)纳饪赡軙?huì)受到一些影響,因?yàn)橄M(fèi)者現(xiàn)在有了更多的選擇。對(duì)于 CoreWeave 來說,這個(gè)新的芯片就像那家新開的超市,可能會(huì)吸引一些原本使用英偉達(dá)芯片的客戶。

但Brannin McBee 提到的一個(gè)觀點(diǎn)是,一種芯片的前兩到三年主要用于模型訓(xùn)練,然后四到五年用于推理執(zhí)行。這意味著即使有了新芯片,現(xiàn)有的英偉達(dá)芯片在一段時(shí)間內(nèi)仍然會(huì)很有用,因?yàn)楹芏喙究赡苓€在使用它們進(jìn)行推理執(zhí)行。

除此以外,英偉達(dá)不僅僅提供芯片,它還努力建立一個(gè)圍繞其硬件的開放生態(tài)系統(tǒng)。這意味著很多軟件、工具和服務(wù)都是與英偉達(dá)芯片緊密集成的。其他制造商雖然可以制造性能相近的芯片,但要建立一個(gè)像英偉達(dá)那樣的生態(tài)系統(tǒng)非常困難。

相比大型云廠商(如谷歌、微軟和AWS)需要投入大量的資金來建設(shè)和維護(hù)龐大的數(shù)據(jù)中心,還要提供一些低利潤(rùn)的服務(wù)來吸引和保持客戶。CoreWeave這樣的公司,由于它們更專注于提供優(yōu)質(zhì)的AI服務(wù),所以在基礎(chǔ)設(shè)施方面的投入相對(duì)較小,這使得它們更容易取得成功。

就像前面說的那樣,傳統(tǒng)云廠商是有“基礎(chǔ)設(shè)施包袱”的。

不過現(xiàn)實(shí)情況里,隨著谷歌、微軟和AWS等傳統(tǒng)云廠商開始加大對(duì)定制硬件的投資,CoreWeave也在經(jīng)歷挑戰(zhàn),這里的關(guān)鍵就在于,后者能否持續(xù)提供大量的GPU并保持價(jià)格上的競(jìng)爭(zhēng)力。

對(duì)于一家AI公司的一個(gè)模型而言,退出訓(xùn)練階段后,在產(chǎn)品上市的前兩年內(nèi),商業(yè)化階段的推理執(zhí)行仍然至少需要百萬個(gè)GPU,但目前市場(chǎng)的供給遠(yuǎn)不足夠,這將是一個(gè)長(zhǎng)期的挑戰(zhàn)。換句話說,未來不排除越來越多像CoreWeave的公司出現(xiàn),畢竟AI這股洪流的到來已經(jīng)是個(gè)確定性的話題。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

留給傳統(tǒng)云計(jì)算巨頭的時(shí)間不多了

AI云與傳統(tǒng)云,不僅是一場(chǎng)技術(shù)的較量,也是商業(yè)模式的爭(zhēng)奪。

文|新眸 李小東

CoreWeave的大火被看作是AI云注定顛覆傳統(tǒng)云計(jì)算的一個(gè)開端。

從七年前的挖礦公司,長(zhǎng)成一家AI云廠商,這被外界看來符合自身技術(shù)路線的轉(zhuǎn)型,加上與英偉達(dá)的曖昧關(guān)系,助推CoreWeave——一家規(guī)模不算龐大的公司,在短時(shí)間內(nèi)估值達(dá)到190億美元,就在5個(gè)月前,它的估值才剛剛70億美元。

短時(shí)間內(nèi)估值翻倍的背后,是全球 GPU 加速云基礎(chǔ)設(shè)施的爆炸性需求,以及當(dāng)前的AI融資狂潮。和傳統(tǒng)云計(jì)算廠商賣計(jì)算資源、存儲(chǔ)空間和各種云服務(wù)不同,CoreWeave專注GPU云計(jì)算,特別是與AI領(lǐng)域的緊密聯(lián)系。

簡(jiǎn)單來說,現(xiàn)在因?yàn)樯墒紸I(如聊天機(jī)器人、圖像生成等)越來越火,訓(xùn)練和運(yùn)行這些AI模型需要大量的計(jì)算能力。GPU(圖形處理器)因?yàn)槟芡瑫r(shí)處理很多任務(wù),成為了這類計(jì)算的優(yōu)選硬件。

但事實(shí)上,買GPU和維護(hù)它并不便宜,所以很多人會(huì)選擇使用云計(jì)算服務(wù)。像亞馬遜AWS、谷歌云和微軟Azure這樣的主流公司都提供了特別為AI工作準(zhǔn)備的GPU。但人們發(fā)現(xiàn),有些專門提供GPU服務(wù)的小公司,比如CoreWeave,比那些大公司更便宜。

舉個(gè)例子,據(jù)媒體報(bào)道,在CoreWeave上租用一款流行的GPU,每小時(shí)不到2.4美元,但在AWS和谷歌云上都要花費(fèi)3.5美元左右。換句話說,細(xì)微的價(jià)差和龐大的市場(chǎng)需求,正在將Gartner提到的“GPU即服務(wù)(GAAS)”這樣一個(gè)新的概念,日漸催化成了一個(gè)龐大的市場(chǎng)。

2024年,CoreWeave公司官方預(yù)測(cè)年度營(yíng)收約24億美元,前兩年分別是3000萬和5億,雖然體量上和AWS這些巨頭相去甚遠(yuǎn),但夸張的增長(zhǎng)態(tài)勢(shì),已經(jīng)不得不讓所有人對(duì)這個(gè)新興的行業(yè)側(cè)目。

01 顛覆傳統(tǒng)云廠商的鏟子從哪來?

CoreWeave之所以能被稱為算力黃牛,是因?yàn)榇饲翱客诘V積累了大量的GPU。

簡(jiǎn)單來說,挖以太坊就像是一個(gè)巨大的數(shù)學(xué)競(jìng)賽,礦工使用計(jì)算機(jī)(特別是像英偉達(dá)這樣的高性能GPU)來解一個(gè)叫“哈希函數(shù)”的難題。當(dāng)他們用自己的GPU找到答案時(shí),就贏得了一次挖礦的勝利,獎(jiǎng)勵(lì)就是以太幣。

挖礦是一門技術(shù)活,更是體力活,為了獲得更多的以太幣,要挖更多的礦,與傳統(tǒng)的CPU相比,GPU具有更高的并行處理能力和更強(qiáng)的計(jì)算性能,能夠更快地執(zhí)行復(fù)雜的加密算法。英偉達(dá)的GPU因卓越的性能和效率,成為了礦工們的首選鏟子。

CoreWeave的三名創(chuàng)始人Michael Intrator、Brian Venturo和Brannin McBee都是華爾街背景,關(guān)注金融和科技領(lǐng)域,五年的挖礦經(jīng)歷,讓他們通過各種方式獲得了數(shù)萬張高性能顯卡,建立了不少數(shù)據(jù)中心。截至2018年末,CoreWeave部署超過5萬張GPU,并且在挖礦逐漸沒落的同時(shí),借助算力資源轉(zhuǎn)型做起了云計(jì)算的生意。

將CoreWeave和英偉達(dá)推向高峰的chatgpt,更準(zhǔn)確地說是預(yù)訓(xùn)練大模型,因?yàn)橛?xùn)練這些大模型的數(shù)據(jù)量極其龐大,過程可以被拆解成不同的小任務(wù),這就非常適合GPU做。產(chǎn)量有限,一個(gè)成本約3000美元的H100顯卡可以賣到十倍價(jià)格。

據(jù)媒體報(bào)道,從宣布加入英偉達(dá)合作伙伴網(wǎng)絡(luò)計(jì)劃,到拿到首批英偉達(dá)HGX H100高性能計(jì)算平臺(tái),再到掌握將英偉達(dá) H100作為抵押品獲得融資,CoreWeave只用了不到三年。

之所以被英偉達(dá)青睞,外界普遍認(rèn)為的核心是:在面對(duì)來自英特爾、AMD等半導(dǎo)體巨頭以及OpenAI、微軟等下游客戶自研芯片的壓力下,英偉達(dá)不得不既要抵御云廠商造芯片,又要進(jìn)一步擴(kuò)大GPU市場(chǎng)份額。所以芯片廠通過扶持不造芯片的CoreWeave、Lambda Labs等較小的云服務(wù)商,從而與微軟等巨頭能夠形成間接競(jìng)爭(zhēng)。

按照這樣的邏輯,巨頭在尋求GPU資源時(shí),如果只能通過CoreWeave等公司間接獲取,那么將需要支付更多的費(fèi)用,包括購(gòu)買GPU的費(fèi)用以及使用CoreWeave等公司的服務(wù)費(fèi)用。典型的例子就像剛與CoreWeave簽訂長(zhǎng)期合作協(xié)議的微軟,這樣一來,作為最上游的英偉達(dá)仍然掌握最高的議價(jià)權(quán)。

CoreWeave依賴英偉達(dá)發(fā)財(cái),就連它的創(chuàng)始人也坦然承認(rèn):“世界都在依賴英偉達(dá),雖然我們也在了解不同的芯片和解決方案,但事實(shí)上,客戶明確表示,目前他們需要構(gòu)建產(chǎn)品和AI芯片類型,很大程度上是由英偉達(dá)基礎(chǔ)設(shè)施推動(dòng)的?!?/p>

但回過頭來,這些其實(shí)還不足以論證CoreWeave被市場(chǎng)看好的根本原因。

本質(zhì)上,押注CoreWeave的英偉達(dá)、前蘋果高管、黑石等大量的資本,他們篤定另一個(gè)預(yù)判,傳統(tǒng)的云服務(wù)商將被更新興的AI云替代。

AI軟件的發(fā)展速度非常迅猛,開發(fā)的訓(xùn)練過程需要更強(qiáng)大的計(jì)算資源,和更高效的云基礎(chǔ)設(shè)施來支持不斷增長(zhǎng),就連被定義為AI超大規(guī)模計(jì)算提供商的CoreWeave,有大量的GPU等設(shè)施,仍然供不應(yīng)求。

就當(dāng)前來看,現(xiàn)有的云基礎(chǔ)設(shè)施大多是為可序列化工作負(fù)載設(shè)計(jì)的,它們更適合處理那些可以分解成一系列獨(dú)立步驟并依次執(zhí)行的任務(wù);但AI工作負(fù)載的特性并不一樣:它們通常需要進(jìn)行大量的并行計(jì)算,并且需要實(shí)時(shí)地處理大量的數(shù)據(jù)。

在CoreWeave的CTO看來,他們不僅擁有大量的GPU作為生產(chǎn)力工具,更重要的是其軟件技術(shù)非常先進(jìn),這是它能夠比其他公司更好地利用GPU服務(wù)器,確??蛻臬@得最佳性能的原因。

02 更靈活、更劃算,CoreWeave能滿足什么?

為什么選擇CoreWeave,它的官網(wǎng)上有很直接地回答:

CoreWeave是一家專門為企業(yè)級(jí)GPU加速工作負(fù)載提供云服務(wù)商。他們的Kubernetes原生基礎(chǔ)設(shè)施專為機(jī)器學(xué)習(xí)、VFX渲染、像素流和批處理等計(jì)算密集型用例而構(gòu)建,與傳統(tǒng)云廠商相比,速度最高可提高35倍,成本降低80%。

用創(chuàng)始人的Brannin的話簡(jiǎn)單來說,CoreWeave的云不是簡(jiǎn)單地加上GPU然后讓用戶能夠使用它。它其實(shí)是一個(gè)復(fù)雜的系統(tǒng),像是一個(gè)大舞臺(tái)的導(dǎo)演,管理著所有的資源和設(shè)備,讓用戶可以方便地訪問和使用這些資源。

這和那些大公司的云不同,因?yàn)閭鹘y(tǒng)云主要是為了托管網(wǎng)站和存儲(chǔ)數(shù)據(jù),而CoreWeave是從頭開始打造的,專注于運(yùn)行AI和其他需要大量并行計(jì)算的任務(wù)。這是它的核心優(yōu)勢(shì)之一,對(duì)以前不能參與的決策,客戶有更自由,“嚴(yán)格的資源配額和等待數(shù)小時(shí)才能啟動(dòng)GPU已經(jīng)成為過去,現(xiàn)在你可以在幾秒鐘內(nèi)調(diào)用、擴(kuò)大和縮小數(shù)千個(gè)GPU?!?/p>

Brannin喜歡打一個(gè)比喻,CoreWeave和傳統(tǒng)云廠的區(qū)別,就像特斯拉和福特汽車。福特當(dāng)然可以造出像特斯拉一樣的汽車,但這意味著他們需要經(jīng)歷范式轉(zhuǎn)變,因?yàn)樯婕暗氖钦麄€(gè)供應(yīng)鏈和整體業(yè)務(wù),需要推翻過去重新開始,且容易陷入創(chuàng)新者困境,大公司往往不愿這么做。

當(dāng)然,這種對(duì)AI的專一性,也直接造就了CoreWeave在給AI公司服務(wù)時(shí)的專業(yè)性。

CoreWeave的主要產(chǎn)品有7類,除了提供高性能計(jì)算平臺(tái)H100和最齊全的GPU,也提供CPU來滿足不同負(fù)載需求,還有完全托管的Kubernetes服務(wù),消除了客戶管理Kubernetes集群的負(fù)擔(dān),使他們能夠?qū)W⒂趹?yīng)用程序的開發(fā)和部署;以及NVMe文件系統(tǒng)卷,這種高性能存儲(chǔ)適用于分布式機(jī)器學(xué)習(xí)訓(xùn)練、VFX渲染、生命科學(xué)批處理和元宇宙像素流等工作負(fù)載。

除此以外,CoreWeave使用InfiniBand技術(shù)建立了高性能的網(wǎng)絡(luò),相當(dāng)于給每一輛車(GPU)搭建高速公路,能夠滿足大規(guī)模數(shù)據(jù)處理和傳輸?shù)男枨?,從而有助于AI產(chǎn)品更快速地發(fā)展和規(guī)模化。

客觀來講,CoreWeave的產(chǎn)品體系覆蓋了高性能計(jì)算的各個(gè)方面,從硬件資源到軟件服務(wù),讓模型訓(xùn)練、托管、微調(diào)以及推理服務(wù)變得簡(jiǎn)單。

至于具體的效果,對(duì)比A100,H100能將大型模型的AI訓(xùn)練速度提高9倍,推理速度提高三十倍。H100的性能目前維持在行業(yè)第一,這種速度,加上NVIDIA Quantum-2InfiniBand平臺(tái)在市場(chǎng)上最低的網(wǎng)絡(luò)延遲,將AI模型的訓(xùn)練時(shí)間縮短至幾天或幾小時(shí),而不是幾個(gè)月。

以做NFT的Procedural Space為例,這是數(shù)萬個(gè)獨(dú)特的、程序生成的行星NFT的集合。每個(gè)行星都是使用獨(dú)特的算法生成的,這些算法控制著行星的顏色、地形構(gòu)造、海洋、文明等,所有 Procedural Space 行星均制作為一分鐘的 4K 視頻,展示行星的完整旋轉(zhuǎn)。由于負(fù)載量大,幀速率為每秒30幀,因此需要1800萬個(gè)高分辨率幀。

以往他們用過其他的渲染引擎,但效果并不大好,但通過與CoreWeave合作,Procedural Space 能夠在短短一周內(nèi)渲染、存儲(chǔ)、壓縮、編碼和制作100GB的4K高分辨率圖像,而成本僅為原來的六分之一。

那為什么說CoreWeave是當(dāng)下AI公司最具性價(jià)比的選擇?

一方面,CoreWeave提供了業(yè)內(nèi)價(jià)格最低、最廣泛的NVIDIA GPU系列選擇,客戶可以根據(jù)自己的工作負(fù)載選擇合適的GPU,從而確保性能和成本的最優(yōu)化。并且與其他云提供商不同,CoreWeave 在絕大多數(shù)用例中不收取區(qū)域間傳輸、工作站數(shù)據(jù)或出口等費(fèi)用,這樣客戶就不用擔(dān)心數(shù)據(jù)傳輸會(huì)花很多錢。

另一方面,CoreWeave提供了按需定價(jià)模式,意味著客戶只需支付他們實(shí)際使用的資源費(fèi)用,無需簽訂長(zhǎng)期合同或做出任何承諾。這種靈活性使得客戶能夠根據(jù)自己的實(shí)際需求進(jìn)行擴(kuò)展或縮減,從而節(jié)省成本。如果客戶需要長(zhǎng)期或大量使用,他們還有折扣。這也就不難解釋,CoreWeave的云基礎(chǔ)設(shè)施的速度會(huì)比通用公共云快35倍,成本卻低了80%。

03 留給傳統(tǒng)云廠商的時(shí)間不多了

Brian Venturo作為CoreWeave的CTO,提到如果有一種新的芯片性能與英偉達(dá)相當(dāng)或更好,那意味著市場(chǎng)上出現(xiàn)了一個(gè)強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手。

想象一下,如果你家附近新開了一家和沃爾瑪一樣大的超市,那么沃爾瑪?shù)纳饪赡軙?huì)受到一些影響,因?yàn)橄M(fèi)者現(xiàn)在有了更多的選擇。對(duì)于 CoreWeave 來說,這個(gè)新的芯片就像那家新開的超市,可能會(huì)吸引一些原本使用英偉達(dá)芯片的客戶。

但Brannin McBee 提到的一個(gè)觀點(diǎn)是,一種芯片的前兩到三年主要用于模型訓(xùn)練,然后四到五年用于推理執(zhí)行。這意味著即使有了新芯片,現(xiàn)有的英偉達(dá)芯片在一段時(shí)間內(nèi)仍然會(huì)很有用,因?yàn)楹芏喙究赡苓€在使用它們進(jìn)行推理執(zhí)行。

除此以外,英偉達(dá)不僅僅提供芯片,它還努力建立一個(gè)圍繞其硬件的開放生態(tài)系統(tǒng)。這意味著很多軟件、工具和服務(wù)都是與英偉達(dá)芯片緊密集成的。其他制造商雖然可以制造性能相近的芯片,但要建立一個(gè)像英偉達(dá)那樣的生態(tài)系統(tǒng)非常困難。

相比大型云廠商(如谷歌、微軟和AWS)需要投入大量的資金來建設(shè)和維護(hù)龐大的數(shù)據(jù)中心,還要提供一些低利潤(rùn)的服務(wù)來吸引和保持客戶。CoreWeave這樣的公司,由于它們更專注于提供優(yōu)質(zhì)的AI服務(wù),所以在基礎(chǔ)設(shè)施方面的投入相對(duì)較小,這使得它們更容易取得成功。

就像前面說的那樣,傳統(tǒng)云廠商是有“基礎(chǔ)設(shè)施包袱”的。

不過現(xiàn)實(shí)情況里,隨著谷歌、微軟和AWS等傳統(tǒng)云廠商開始加大對(duì)定制硬件的投資,CoreWeave也在經(jīng)歷挑戰(zhàn),這里的關(guān)鍵就在于,后者能否持續(xù)提供大量的GPU并保持價(jià)格上的競(jìng)爭(zhēng)力。

對(duì)于一家AI公司的一個(gè)模型而言,退出訓(xùn)練階段后,在產(chǎn)品上市的前兩年內(nèi),商業(yè)化階段的推理執(zhí)行仍然至少需要百萬個(gè)GPU,但目前市場(chǎng)的供給遠(yuǎn)不足夠,這將是一個(gè)長(zhǎng)期的挑戰(zhàn)。換句話說,未來不排除越來越多像CoreWeave的公司出現(xiàn),畢竟AI這股洪流的到來已經(jīng)是個(gè)確定性的話題。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。