无码人妻丰满熟妇区五十路在线,日本高清哔哩哔哩视频,一本久久综合

文｜烏鴉智能說(shuō)

不少人有這樣一個(gè)判斷：2024會(huì)是推理的元年。據(jù)英偉達(dá)2023年財(cái)報(bào)電話會(huì)議披露，公司全年數(shù)據(jù)中心里已經(jīng)有40%的收入來(lái)自推理業(yè)務(wù)，超出了絕大部分人預(yù)期。

讓人沒(méi)想到的是，推理端的爆發(fā)率先在大模型價(jià)格上卷了起來(lái)。今年5月，幻方、字節(jié)先后發(fā)布新模型，價(jià)格動(dòng)輒市面上原有模型的1%。同時(shí)，智譜也官宣了新的價(jià)格體系，將入門(mén)級(jí)產(chǎn)品GLM-3 Turbo模型的價(jià)格下調(diào)了80%。

這樣的趨勢(shì)，同樣也在國(guó)外發(fā)生。自去年以來(lái)，OpenAI已經(jīng)進(jìn)行了4次降價(jià)。在剛剛結(jié)束的春季功能更新會(huì)上，OpenAI宣布了其最新模型GPT-4o，不僅性能有大幅提升，價(jià)格也下調(diào)了50%。

那么，驅(qū)動(dòng)這輪大模型推理成本下降的邏輯是什么？我們又應(yīng)該如何理解推理成本下降對(duì)產(chǎn)業(yè)的意義？

/ 01 / 降本超預(yù)期！GPT4一年降價(jià)超80%

從5月召開(kāi)的發(fā)布會(huì)來(lái)看，各家在大模型價(jià)格上卷得越來(lái)越厲害了。

5月6日，幻方量化旗下DeepSeek（深度求索）發(fā)布第二代MoE模型DeepSeek-V2，該模型API定價(jià)為每百萬(wàn)Tokens輸入1元、輸出2元（32K上下文），價(jià)格為GPT-4 Turbo的近百分之一。

5月11日，智譜大模型官宣新的價(jià)格體系，新注冊(cè)用戶可以獲得額度從500萬(wàn) tokens 提升至2500萬(wàn) tokens，并且入門(mén)級(jí)產(chǎn)品GLM-3 Turbo模型調(diào)用價(jià)格從5元／百萬(wàn)Tokens降至1元／百萬(wàn)Tokens，降幅高達(dá)80%。

5月13日，OpenAI發(fā)布GPT-4o，不僅在功能上大幅超越GPT-4 Turbo，價(jià)格只有一半。

5月15日，豆包主力模型為0.0008元/千Tokens，即0.8厘就能處理1500多個(gè)漢字，宣稱比行業(yè)便宜了99.3%。在32K（千字節(jié)）以下主力模型中，每1000 Tokens（大模型文本中的一個(gè)最小單位）的企業(yè)市場(chǎng)使用價(jià)格，GPT-4（美國(guó)AI研究公司OpenAI旗下的大模型）為0.42元，百度文心一言和阿里通義千問(wèn)為0.12元。

可以看到，大模型降價(jià)既有GLM-3 Turbo這樣的入門(mén)模型，也有像性能接近GPT-4 Turbo的主力模型。而從OpenAI過(guò)去一年的動(dòng)作看，降價(jià)也一直其升級(jí)的主線。

算上此次GPT-4o的發(fā)布，2023年年初以來(lái)，OpenAI已經(jīng)進(jìn)行了4次降價(jià)。去年3月，OpenAI開(kāi)放了gpt-3.5-turbo，每1000個(gè)token的成本為0.002美元，價(jià)格比此前的GPT-3.5模型下降了90%。

到去年11月，OpenAI發(fā)布了GPT-4 Turbo的同時(shí)，也對(duì)整個(gè)平臺(tái)的價(jià)格做出了調(diào)整。其中，GPT-4 Turbo輸入tokens價(jià)格是GPT-4的1/3，為0.01美元/1k tokens（折合人民幣約0.07元），輸出tokens價(jià)格是其1/2，為，折合人民幣約0.22元）。

今年1月，OpenAI推出了新版的GPT-3.5-Turbo，型號(hào)為gpt-3.5-turbo-0125，gpt-3.5-turbo-0125輸入的價(jià)格降低了50%，為0.0005美元/1000 tokens，輸出價(jià)格也降低了25%，為0.0015美元/1000 tokens。

此外，OpenAI還推出餓了兩個(gè)新一代embedding模型：text-embedding-3-small和text-embedding-3-large。其中，text-embedding-3-small遠(yuǎn)比OpenAI之前的text-embedding-ada-002模型效率高，因此價(jià)格也大幅降低了5倍，從每千token的0.0001美元降至0.00002美元。

從去年3月OpenAI發(fā)布GPT4到現(xiàn)在，其產(chǎn)品從GPT4升級(jí)到GPT-4o，輸入價(jià)格從0.03美元/1k tokens下降到0.005美元/1k tokens，降幅為83%；輸出價(jià)格從0.06美元/1k tokens下降到0.015美元/1k tokens，降幅為75%。

根據(jù)此前預(yù)期，大模型大致將按照每年50-75%幅度降本，也就是說(shuō)，現(xiàn)在大模型的降本速度遠(yuǎn)超預(yù)期。

/ 02 / 模型優(yōu)化驅(qū)動(dòng)下的成本下降

過(guò)去，大模型推理成本下降，很大程度要依賴于算力的升級(jí)。但縱觀過(guò)去一年，推理成本的下降，是在算力沒(méi)有升級(jí)的情況完成的，包括架構(gòu)創(chuàng)新、推理優(yōu)化、系統(tǒng)升級(jí)、甚至推理集群計(jì)算架構(gòu)方面等等。

這意味著，除了算力升級(jí)外，模型優(yōu)化本身也有著很大的空間。從目前看，算法框架革新主要有兩條思路：輕量化和線性化。

其中，輕量化以Mixtral 8*7B模型為代表，其核心思路是采用混合專(zhuān)家模型MoE，架構(gòu)中基于多個(gè)專(zhuān)家并行機(jī)制，推理時(shí)只激活部分專(zhuān)家，以稀疏性壓縮了參數(shù)數(shù)量和推理成本。

MoE架構(gòu)主要由兩個(gè)關(guān)鍵部分組成：專(zhuān)家網(wǎng)絡(luò)和門(mén)控機(jī)制。所謂的“專(zhuān)家網(wǎng)絡(luò)”，就是傳統(tǒng)Tranformer架構(gòu)的FFN（前饋網(wǎng)絡(luò)）層是一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)，MoE架構(gòu)的FFN層則劃分成稀疏性的神經(jīng)網(wǎng)絡(luò)，這些被稱之為“專(zhuān)家”的小FFN，每個(gè)都有自己的權(quán)重和激活函數(shù)，它們并行工作、專(zhuān)注于處理特定類(lèi)型的信息。而門(mén)控機(jī)制則用來(lái)決定每個(gè)token被發(fā)送到哪個(gè)專(zhuān)家網(wǎng)絡(luò)的調(diào)配器。

MoE架構(gòu)強(qiáng)調(diào)“術(shù)業(yè)有專(zhuān)攻”，把不同的問(wèn)題交給相應(yīng)領(lǐng)域的專(zhuān)家來(lái)解決，就好比一家公司有多個(gè)部門(mén)，在做決策的時(shí)候，公司的CEO會(huì)把具體的問(wèn)題分配到相關(guān)的部門(mén)進(jìn)行討論，最終產(chǎn)生最優(yōu)的決策。

與輕量化不同，線性化更注重對(duì)信息的壓縮。Transformer架構(gòu)模型在推理時(shí)與上下文內(nèi)容進(jìn)行逐字對(duì)比，而線性化模型對(duì)前文信息進(jìn)行了壓縮，實(shí)現(xiàn)了復(fù)雜度線性化，意味著更快的推理速度和更低的計(jì)算成本。

此次DeepSeek-V2的降價(jià)，就是其通過(guò)架構(gòu)創(chuàng)新，實(shí)現(xiàn)了大模型成本尤其是推理成本下降的結(jié)果。具體來(lái)說(shuō)，DeepSeek-V2在注意力機(jī)制和稀疏層方面做出了創(chuàng)新性的設(shè)計(jì)。

一方面，其稀疏MoE架構(gòu)進(jìn)行了共享專(zhuān)家等改進(jìn)，相比V1的稠密模型，節(jié)約了42.5%的訓(xùn)練成本。另一方面，DeepSeek-V2也創(chuàng)新性地運(yùn)用先進(jìn)的注意力機(jī)制MLA，壓縮token生成中對(duì)key value的緩存，極大降低了推理成本。

長(zhǎng)期來(lái)看，在算力升級(jí)以及架構(gòu)優(yōu)化等一系列因素的推動(dòng)下，模型推理成本下降的速度很有可能超出大家預(yù)期，并加速應(yīng)用層的不斷創(chuàng)新和生態(tài)繁榮。

/ 03 / 一場(chǎng)成本驅(qū)動(dòng)型生產(chǎn)力革命

從過(guò)去看，科技變革本質(zhì)上都是伴隨著邊際成本的大幅下降。根據(jù)A16Z的合伙人Martin Casado的觀點(diǎn)，過(guò)去幾十年人類(lèi)大致經(jīng)歷了兩次大的科技變革，分別是芯片和互聯(lián)網(wǎng)。

在新一波浪潮里，芯片的誕生，將計(jì)算的邊際成本降到了趨近為零。在微芯片出現(xiàn)之前，計(jì)算是通過(guò)手工完成的。人們?cè)诖蠓块g里做對(duì)數(shù)表。然后ENIAC被引入，計(jì)算速度提高了四個(gè)數(shù)量級(jí)，然后發(fā)生了計(jì)算機(jī)革命。這一時(shí)期出現(xiàn)了IBM、惠普等公司。

到了互聯(lián)網(wǎng)時(shí)代，互聯(lián)網(wǎng)技術(shù)將分發(fā)的邊際成本降到了零。以前無(wú)論你發(fā)送什么（一個(gè)盒子或者一封信）都需要一定的成本，互聯(lián)網(wǎng)出現(xiàn)后，每bit的價(jià)格急劇下降。順便說(shuō)一下，這也是四個(gè)數(shù)量級(jí)改進(jìn)。這引領(lǐng)了互聯(lián)網(wǎng)革命。這一時(shí)期出現(xiàn)了亞馬遜、谷歌和Meta等公司。

與上述兩個(gè)技術(shù)類(lèi)似，AI也同樣是一場(chǎng)成本驅(qū)動(dòng)型生產(chǎn)力革命。大模型則是將創(chuàng)造的邊際成本降到了零，比如創(chuàng)建圖像和語(yǔ)言理解等等。

舉個(gè)例子，以前創(chuàng)造一個(gè)漫畫(huà)角色可能需要一個(gè)時(shí)薪100美元平面設(shè)計(jì)師，而現(xiàn)在大模型只需要0.01美元，而且只需要一秒鐘。再以客服行業(yè)為例，目前普遍的AI客服定價(jià)都隱含相比人工客服接近1:10的ROI，這意味著過(guò)去在美國(guó)一位年薪5萬(wàn)刀的客服人員，在應(yīng)用大模型產(chǎn)品后成本會(huì)降低到5000刀。

目前受限于模型推理成本較高，AI應(yīng)用普遍面臨較大的成本壓力。

根據(jù)無(wú)問(wèn)芯穹發(fā)起人汪玉，用公開(kāi)數(shù)據(jù)做了一次針對(duì)算力成本數(shù)量級(jí)的測(cè)算，假設(shè)GPT-4 Turbo每天要為10億活躍用戶提供服務(wù)，每年的算力成本可能超過(guò)兩千億，這還不包括模型訓(xùn)練的投入。

絕大部分公司的收入仍然還在億的級(jí)別，因此這種成本在打造商業(yè)閉環(huán)上，顯然是不成立的。

從這個(gè)角度上說(shuō)，推理成本下降將成為打開(kāi)AI應(yīng)用的重要“開(kāi)關(guān)”。更重要的是，過(guò)去的科技發(fā)展歷史，告訴我們，如果需求具有彈性，那么隨著成本下降，使用量也會(huì)因?yàn)榭杉靶蕴嵘饛?fù)增加。

幾乎可以肯定的是，互聯(lián)網(wǎng)大幅帶動(dòng)了全球經(jīng)濟(jì)的增長(zhǎng)。而人工智能大概率也將經(jīng)歷同樣的故事。

文｜烏鴉智能說(shuō)

那么，驅(qū)動(dòng)這輪大模型推理成本下降的邏輯是什么？我們又應(yīng)該如何理解推理成本下降對(duì)產(chǎn)業(yè)的意義？

/ 01 / 降本超預(yù)期！GPT4一年降價(jià)超80%

從5月召開(kāi)的發(fā)布會(huì)來(lái)看，各家在大模型價(jià)格上卷得越來(lái)越厲害了。

5月13日，OpenAI發(fā)布GPT-4o，不僅在功能上大幅超越GPT-4 Turbo，價(jià)格只有一半。

根據(jù)此前預(yù)期，大模型大致將按照每年50-75%幅度降本，也就是說(shuō)，現(xiàn)在大模型的降本速度遠(yuǎn)超預(yù)期。

/ 02 / 模型優(yōu)化驅(qū)動(dòng)下的成本下降

這意味著，除了算力升級(jí)外，模型優(yōu)化本身也有著很大的空間。從目前看，算法框架革新主要有兩條思路：輕量化和線性化。

/ 03 / 一場(chǎng)成本驅(qū)動(dòng)型生產(chǎn)力革命

目前受限于模型推理成本較高，AI應(yīng)用普遍面臨較大的成本壓力。

絕大部分公司的收入仍然還在億的級(jí)別，因此這種成本在打造商業(yè)閉環(huán)上，顯然是不成立的。

幾乎可以肯定的是，互聯(lián)網(wǎng)大幅帶動(dòng)了全球經(jīng)濟(jì)的增長(zhǎng)。而人工智能大概率也將經(jīng)歷同樣的故事。

歷史搜索全部刪除

熱門(mén)搜索

大模型價(jià)格“卷”起來(lái)了：幻方、字節(jié)和智譜紛紛下場(chǎng)，GPT4一年降價(jià)超80%

評(píng)論

大模型價(jià)格“卷”起來(lái)了：幻方、字節(jié)和智譜紛紛下場(chǎng)，GPT4一年降價(jià)超80%

大模型價(jià)格“卷”起來(lái)了：幻方、字節(jié)和智譜紛紛下場(chǎng)，GPT4一年降價(jià)超80%

評(píng)論

大模型價(jià)格“卷”起來(lái)了：幻方、字節(jié)和智譜紛紛下場(chǎng)，GPT4一年降價(jià)超80%

大模型價(jià)格“卷”起來(lái)了：幻方、字節(jié)和智譜紛紛下場(chǎng)，GPT4一年降價(jià)超80%

大模型價(jià)格“卷”起來(lái)了：幻方、字節(jié)和智譜紛紛下場(chǎng)，GPT4一年降價(jià)超80%