3月1日,DeepSeek官方認(rèn)證賬號(hào)在知乎發(fā)布了《DeepSeek-V3/R1推理系統(tǒng)概覽》(下稱(chēng)《概覽》)一文,首次公布模型推理系統(tǒng)的核心優(yōu)化方案,并披露理論成本利潤(rùn)率高達(dá)545%,刷新了全球AI大模型領(lǐng)域的盈利高點(diǎn),引發(fā)業(yè)內(nèi)震動(dòng)。
《概覽》顯示,DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是更大的吞吐、更低的延遲。
為了實(shí)現(xiàn)上述兩個(gè)目標(biāo),DeepSeek使用大規(guī)模跨節(jié)點(diǎn)專(zhuān)家并行(EP)。首先EP使得批量尺寸大大增加,從而提高圖形處理器(GPU)矩陣乘法的效率,提高吞吐。其次 EP 使得專(zhuān)家分散在不同的 GPU上,每個(gè)GPU只需要計(jì)算很少的專(zhuān)家,因此更少的訪(fǎng)存需求,從而降低延遲。
EP同時(shí)也增加了系統(tǒng)的復(fù)雜性。因此,《概覽》就如何使用EP增大批量尺寸、如何隱藏傳輸?shù)暮臅r(shí)、如何進(jìn)行負(fù)載均衡等進(jìn)行了講解。
DeepSeek還披露了DeepSeek的理論成本和利潤(rùn)率等關(guān)鍵信息。
文章稱(chēng),在北京時(shí)間2月27日12:00 至2月28日12:00,DeepSeekV3和R1推理服務(wù)占用節(jié)點(diǎn)總和,峰值占用為278個(gè)節(jié)點(diǎn),平均占用226.75個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)為8 個(gè)H800 GPU)。假定GPU租賃成本為2美元/小時(shí),總成本約為8.71萬(wàn)美元/天。
如果所有tokens全部按照DeepSeek R1的定價(jià)計(jì)算,理論上一天的總收入大約56.20萬(wàn)美元,成本利潤(rùn)率為545%。

DeepSeek此次披露的數(shù)據(jù),不僅驗(yàn)證了其技術(shù)路線(xiàn)的商業(yè)可行性,也預(yù)示著AI大模型的盈利閉環(huán)已從理想照進(jìn)現(xiàn)實(shí)。此前發(fā)布的DeepSeek-V3模型訓(xùn)練成本僅557.6萬(wàn)美元,是同類(lèi)產(chǎn)品的1%-5%。
DeepSeek此次在知乎發(fā)布《概覽》,引來(lái)近600條評(píng)論、5000多點(diǎn)贊。有網(wǎng)友稱(chēng),今日發(fā)布的《概覽》技術(shù)文章是“開(kāi)源周彩蛋”,直接亮出了底牌。有網(wǎng)友稱(chēng)贊:“太強(qiáng)了,AI算力成為水電的基礎(chǔ)是要足夠便宜,Deepseek邁出了一大步”。
《概覽》發(fā)布也標(biāo)志著全球關(guān)注的“DeepSeek開(kāi)源周”正式收官?!癉eepSeek開(kāi)源周”自2月24日至2月28日,陸續(xù)開(kāi)源最新技術(shù)進(jìn)展。其中,包括FlashMLA、DeepEP、DeepGEMM和3FS四個(gè)開(kāi)源項(xiàng)目,以及DualPipe、EPLB等代碼庫(kù)。