正在閱讀:

大模型路徑之爭:理想與現實

掃一掃下載界面新聞APP

大模型路徑之爭:理想與現實

大模型這一賽道,依然將是贏家通吃的終局。

圖片來源:界面新聞 匡達

文|異觀財經 炫夜白雪

英偉達創(chuàng)始人黃仁勛,為正在舉辦的GTC大會甩出了“王炸”——新一代芯片,Blackwell GPU,包含2080億個晶體管,支持多達10萬億個參數的AI模型。 

在一連串讓人看得目眩神迷的產品中,我們簡單地總結:這一次,英偉達做了什么?

這一次,英偉達做了什么?

第一,極大地提升了算力,并降低了能耗和成本。

“我們需要另一種方式來進行計算,這樣我們才能夠繼續(xù)擴展,這樣我們才能夠繼續(xù)降低計算成本,這樣我們才能夠繼續(xù)進行越來越多的計算?!?/p>

“我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU?!?/p>

以上,是黃仁勛在現場演講中的話。他再次回憶起,2016年贈送給OpenAI的DGX-1,那也是史上第一次8塊GPU連在一起組成一臺超級計算機。

當時,DGX1 算力僅0.17 Peataflop(1 Petaflop等于每秒鐘進行1千萬億次的數學運算),而今天英偉達推出的 DGX Grace-Blackwell GB200 已經超過1 Exaflop(百億億次)的算力。

8年時間,AI算力增長1000倍。

相比上一代H100 Tensor核心的GPU,最新的Blackwell GB200 GPU可以為大語言模型(LLM)推理負載提供30倍的性能提升,而成本和能耗則降低25倍。

第二,算力的提升,意味著萬億級參數模型變得更為現實。

在技術支持下,一個GB200 NVL72最高支持27萬億參數的模型。而據泄露數據,GPT-4也不過只有1.7萬億參數。

萬億參數模型有許多優(yōu)勢,比如進行自然語言處理任務,如翻譯、問答、抽象和流暢性;掌握更長期的背景和對話能力;結合語言、視覺和語音的多模態(tài)應用;進行創(chuàng)意應用程序,例如講故事、詩歌生成和代碼生成;進行科學應用,例如蛋白質折疊預測和藥物發(fā)現;實現個性化,能夠形成一致的個性并記住用戶上下文。

第三,英偉達向軟硬一體化的平臺發(fā)展更進一步。

英偉達推出了全新的AI推理服務器NIM(NVIDIA INFERENCE MICROSERVICE),讓所有人都可以通過這一形式自定義AI模型和應用。

以英偉達NIM和CUDA作為中間樞紐,連接了百萬開發(fā)者與上億GPU芯片。 “成熟的企業(yè)平臺坐擁一座數據金礦,這些數據可以轉化為生成性AI副駕駛?!秉S仁勛表示,“這些容器化的AI微服務是我們與合作伙伴生態(tài)系統(tǒng)共同創(chuàng)造的,它們是各行各業(yè)企業(yè)成為AI公司的構建模塊。”

在醫(yī)療場景上,英偉達此次推出了基于醫(yī)療場景的25個新的微服務, 幫助全球的醫(yī)療保健公司可以基于生成式 AI進行效率提升。英偉達舉了一個例子,與在CPU上運行相比,英偉達的微服務能夠將基因組分析工作流程中的變異調用速度提高了50倍以上。目前,全球有接近50家應用程序提供商正在使用英偉達的醫(yī)療微服務。對于醫(yī)療行業(yè)公司來說,他們可以基于這些微服務,篩選數萬億種藥物化合物,收集更多的患者數據以幫助早期疾病檢測,或者實施更智能的數字助理等等。

接下來,中國大模型路往何方? 

過去一年,英偉達的股價從200多美元,上漲至現在的近900美元,市值超過2.2萬億美元。這一家公司的產品迭代速度,對人工智能的發(fā)展產生了歷史級的影響。影響力也轉化為資本市場的認可和回報。

毫無疑問,這是一個贏家通吃的行業(yè)。根據富國銀行統(tǒng)計,英偉達目前在數據中心AI市場擁有98%的市場份額,而AMD僅有1.2%的市場份額,英特爾則只有不到1%。 

英偉達的鮮花著錦,烈火烹油,也讓我們更為深入地思考中國大模型的現狀和未來。2023年上半年,因為ChatGPT的橫空出世,中國大廠與創(chuàng)業(yè)公司紛紛投身大模型,一時引發(fā)“百模大戰(zhàn)”。這又過了大半年時間,中國大模型相關的投資人和從業(yè)者,又有了市場路線與技術路線之爭:

一邊是以月之暗面創(chuàng)始人楊植麟為代表的技術路線,他們大多技術出身,思維偏硅谷,對技術有信仰,信仰AGI(人工通用智能)、信仰scaling law(規(guī)模定律),更推崇前輩OpenAI的路徑,認為隨著模型能力躍升、模型成本降低,會解鎖豐富的應用。

楊植麟在接受采訪的時候說:

“AI不是我在接下來一兩年找到什么PMF(Product/Market Fit,產品/市場匹配),而是接下來十到二十年如何改變世界——這是兩種不同思維。

我們是堅定的長期主義者。當你實現AGI或更強智能,今天的一切會被改寫。PMF固然重要,但如果著急找PMF,你很可能又被降維打擊。降維打擊發(fā)生過太多次。以前很多人做客服、對話系統(tǒng),做slot filling(槽填充),有些規(guī)模不錯的公司。但是,全是降維打擊了,很難受。

它不是說不成立。假設你今天找到一個場景,用現在的技術能力,且從0到1增量價值巨大,從1到n空間又沒那么大,這種場景OK。Midjourney就是,或者做文案生成,相對簡單一點的任務,從0到1效果又很明顯。這種是只關注應用的機會。但是,最大機會不在這。你的目的假設是商業(yè)化,你不可能脫離AGI去思考。我現在只做應用,那好,可能過一年你就被碾壓了?!?/p>

另一邊則是以周鴻祎、朱嘯虎為代表的市場路線,他們更加本土化,信奉尖端的科技必須經過開源、共創(chuàng)才能實現最大化的邊際效益,認為需將充足的AI能力投入可以快速變現的商業(yè)場景中進化,同時用國內市場特有的海量數據和應用場景構筑壁壘。

金沙江創(chuàng)投董事總經理朱嘯虎接受采訪的時候說: 

“說實話在AIGC這波,中美差距還是非常大。美國是在底層大模型,投入越來越大,像OpenAI說十萬張GPU卡連在一起。在中國是不可能的。

美國你看AI的應用創(chuàng)新,說實話只有兩條路,一條要么非常、非常薄,因為底層大模型太強大了,所以上面叫套殼應用。另一層是看上去很偉大,但肯定走不通的,像Pika。這種目標很偉大,AIGC生成視頻、電影。但這條路可能在幾年之內都看不到走通的可能性。

中國反而相反,中國在“當中”的多一點——底層大模型不夠強大,我在上面加的東西可以比較多。我在上面做增值服務,為客戶馬上能變現。這種在中國有機會。美國這種幾乎沒有,因為底層大模型太強大了,上面創(chuàng)業(yè)公司能做的很少。中國套殼,現在肯定沒人看的。在中國也套不了殼,因為大模型本身功能也就那樣,必須在上面有value add。

(中國)整出200多個大模型有啥意義呢?沒啥意義。但在應用層有很多創(chuàng)新。中國在數據和應用場景上是遠遠超過美國的?!?/p>

持有相似觀點的有李彥宏、周鴻祎、王小川等一干正在大模型之路上奮進的大佬們。

李彥宏說:“百模大戰(zhàn)是對社會資源很大的浪費。不應該去卷大模型,而應該去卷應用,只有應用才真正直接創(chuàng)造價值。做出上億用戶使用的應用時,大模型的真正價值才得到體現。

大模型這么火,它到底能產生多少實際的價值,過去一年我最主要就在思考這個問題,ChatGPT大火的時候,別人問我怎么看,我當時就說,現在這個火還有點早,真正什么時候我們能夠做出上億用戶都在使用的應用的時候,才是它真正的價值得到了體現?!?/p>

周鴻祎還指出:“選模型已經不是問題,而且都免費。去年大家都飆著OpenAI,都想搞通用大模型,想壟斷全世界。但2024年的目標變了,是大模型如何找到自己的應用場景,而最大的應用場景就是跟各行各業(yè)結合,因為和各行各業(yè)結合才能帶來工業(yè)革命?!?nbsp;

他還說:“面向傳統(tǒng)的ToB、ToG的市場,是大機會。做企業(yè)級大模型,在企業(yè)內部做私有化部署,是中國大部分企業(yè)的需要。要選擇跟企業(yè)業(yè)務深度結合的場景,也就避開了跟通用大模型的直接競爭。2024年是人工大模型的場景之年,如果找不到場景,光是在做大模型,有點像拿著錘子找釘子,如果找不到釘子,這個錘子是沒有用的?!?/p>

王小川認為,大模型開發(fā)需要強大的算力、財力和智力支持,所以“未來的兩年時間內,更多的是加入一家(大模型)公司,能夠獲得平臺級的支持,這樣做超級應用成功的概率要大很多?!?nbsp;

他認為,新進入企服行業(yè)的創(chuàng)業(yè)者還有兩個機會:一是借著大玩家轉向困難的機會,快速反應推出它們沒做到的新產品形態(tài);二是直接交付最終服務,比如呼叫中心就不要讓人家用你的軟件,而是直接讓話務員下崗。

二者對技術判斷的一個根本分歧是,開源模型會不會有一天,縮小甚至拉平與閉源模型的差距?技術路線的觀點是,絕對不會,差距只會更大。市場路線的觀點是,一定會,那意味著你今天做閉源只會處境尷尬——世界觀的迥異,讓雙方對自我的判斷都深信不疑。

朱嘯虎就直接發(fā)問:“GPT-4你要不要投入做科研?你做GPT-4科研至少砸四五千萬美金。關鍵是萬一你砸了四五千萬美金做出來,別人開源了呢?你不是全白砸了?這個是很扎心的問題。現在中國大部分公司,有幾個敢真的砸錢去研發(fā)GPT-4的?”

以終為始,我們的判斷是什么?

從投資角度來看,預判大模型的終局是什么樣的,才能有助于我們去思考市面上的哪些公司值得看好。從電商平臺大戰(zhàn)一路看過來(有誰還記得想做平臺最后一地雞毛的凡客嗎?),在科技賽道,絕大多數時候轟轟烈烈的“百云大戰(zhàn)”“千團大戰(zhàn)”,99%玩家是黯然退出,只剩下贏家通吃。

縱觀這些年的贏家通吃賽道,基本可以用兩個詞概括:新平臺、新基建。如何理解呢?通常這類玩家,為一個產業(yè)提供了新的平臺,通過技術變革的方式建立起產業(yè)新的基礎設施——類似高速公路、水電氣等基建,讓原有的產業(yè)鏈參與者能夠加入到新平臺來,享有技術變革的紅利。

什么是大模型?第一,顧名思義是規(guī)模大,網絡參數至少要達到百億規(guī)模(現在英偉達甚至解鎖了萬億規(guī)模的算力);第二,通用性,是指不限于專門問題或領域;第三,涌現性,即產生預料之外的新能力。大模型的大規(guī)模和通用性,決定了其將是具備普適性的“新平臺、新基建”,其從一個行業(yè)遷移到另一個行業(yè)的應用場景時,成本低,易遷移。

可以斷言,放在大模型這一賽道,依然將是贏家通吃的終局。

那么,現在“百模大戰(zhàn)”的玩家里,誰將笑到最后?大體來分,目前大模型的玩家有兩類,一類是大廠拉起的團隊,另一類是創(chuàng)業(yè)公司。這里可以有把握地說,在這個百模大戰(zhàn)中,大廠優(yōu)先。

我們可以參考另一個行業(yè)云計算的發(fā)展走向。當年云計算興起的時候,國內也出來很多創(chuàng)業(yè)公司玩家,但最終市場份額集中于大公司。根據IDC發(fā)布的2022年全球云計算IaaS市場追蹤數據來看,市場份額TOP10玩家都是中美的大公司,包括美國的亞馬遜、谷歌、微軟、IBM,中國的阿里、華為、騰訊、百度等。

后面我們會進一步分析。不過這里先看看制約大模型的三個要素:數據、算力和算法。 

先說數據。

數據是大模型發(fā)展的壓艙石,除了互聯網、物聯網數據之外,老百姓生活生產中產生的數據都是未來大模型要提升智能水平的必要數據源。目前,數據壁壘是真實存在的問題。高質量的中文語料數據對于創(chuàng)業(yè)公司來說是個很大的挑戰(zhàn),數據的積累需要時間和經驗。對于那些常年累月通過搜索等多個互聯網、物聯網應用積累起數據的大廠來說,可以說一開始就領先了至少幾個身位。

給AI喂下什么質量的數據,才能訓練和迭代出什么水平的AI。

目前國內“百模大戰(zhàn)”中諸多大模型開發(fā)者,是基于Meta開源的LLaMA等一系列開源社區(qū)的基礎代碼,來進行二次開發(fā)的。其能力差異主要由語料庫差異和少量微調等結合而成。

再說算力。

通用大模型需要24×7連續(xù)訓練,調度多個算力中心、協(xié)調資源,以云的方式提供智能服務,這對算力有很大的需求。隨著參與大模型訓練的企業(yè)越來越多,用來訓練大模型的數據量越來越大,對推理的要求也越來越高,大模型的應用會越來越廣。這就意味著,大模型公司必須擁有穩(wěn)定的、靠譜的、能保障安全運轉的算力。這顯然利于在云計算深耕布局的大廠。 

當年云計算創(chuàng)業(yè)公司,面臨大廠的夾擊,窄縫求生,專攻一個垂直行業(yè)的云計算市場——比如游戲行業(yè)。但是,游戲行業(yè)遭遇監(jiān)管重創(chuàng)的時候,云計算需求也大大降低,這導致該云計算創(chuàng)業(yè)公司的業(yè)務不穩(wěn)定,反過來又影響使用該家公司服務的客戶。

這也是為什么大模型和云計算同樣是贏家通吃的原因之一——大玩家能夠提供更為穩(wěn)定、可靠的服務,成為客戶的優(yōu)先選擇。

最后說算法。

大模型最底層的競爭力來自算法。算法需要龐大的高級人才和長期積累。

為什么現在看起來有很多的公司做大模型呢?因為現在有開源的大模型和很多公開的論文可供參考,所以起步上會簡單很多。但要做好大模型的門檻還是高的,像現在的GPT-4沒有公開后續(xù)技術細節(jié),國內很多大模型就很難繼續(xù)發(fā)展。

越多的應用場景,能形成越多的反饋,從而對模型進行更好的調整;而模型也因此產生更多的經濟價值,可獲得更多的資金投入,反哺自身。

需要指出的是,大模型高昂的訓練成本和研發(fā)投入,讓眾多入局者望而生畏。有企業(yè)家斷言, 每年5000萬到1億美元的花費,只是千億級大模型訓練的入場券。某個創(chuàng)業(yè)者高調宣布投資5000萬美元入局大模型時,就有分析師發(fā)朋友圈直言說:“5000萬美元夠干什么的?大模型訓練一次就花500萬美元,訓練10次?”四個月之后,該創(chuàng)業(yè)公司被收購,出局。

當年共享單車也是百團大戰(zhàn),打得頭破血流,結果笑到最后的是美團。無他,資金充足。在以年計、甚至以十年計的競爭中,這種重資本重研發(fā)的賽道,毫無疑問是利于大公司的。

這是一場漫長的、看不到終點的長跑,競爭的韌性將左右最后的結果。

以贏家通吃的終局為前提下,我們判斷是,在幾家通用大模型的基礎上,將有多個領域的垂直大模型。龍頭企業(yè)研發(fā)通用+中小企業(yè)研發(fā)應用,這種模式成為破局關鍵。

在B端領域,營銷、客服、數據分析、財務、人力等各個業(yè)務領域的企業(yè),很多都在全速接入大模型。從目前的進步來看,雖然還存在各種工程上的問題,但效果是實實在在的,的確有很大的潛力變革原來的整個產品和業(yè)務體系。

大型支付公司Klarna披露,它的AI客服現在已經能勝任700名員工的工作。這個AI客服由OpenAI提供支持,處理客戶的各種咨詢,支持多語言,能夠直接處理退款和退貨的請求。Klarna表示,在短短一個月內,AI助手就完成了700名全職客服的工作。 

到目前為止,它已經進行了230萬次對話,占公司所有客戶服務對話的三分之二。它的客戶滿意度得分與人工客服「不相上下」。而且,它在解決客戶請求方面更準確、更快速。解決請求的平均時間從11分鐘降至2分鐘。

“場景優(yōu)先,數據為王”,則將是提供服務的大模型應用公司的核心競爭力。

本文為轉載內容,授權事宜請聯系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

大模型路徑之爭:理想與現實

大模型這一賽道,依然將是贏家通吃的終局。

圖片來源:界面新聞 匡達

文|異觀財經 炫夜白雪

英偉達創(chuàng)始人黃仁勛,為正在舉辦的GTC大會甩出了“王炸”——新一代芯片,Blackwell GPU,包含2080億個晶體管,支持多達10萬億個參數的AI模型。 

在一連串讓人看得目眩神迷的產品中,我們簡單地總結:這一次,英偉達做了什么?

這一次,英偉達做了什么?

第一,極大地提升了算力,并降低了能耗和成本。

“我們需要另一種方式來進行計算,這樣我們才能夠繼續(xù)擴展,這樣我們才能夠繼續(xù)降低計算成本,這樣我們才能夠繼續(xù)進行越來越多的計算?!?/p>

“我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU?!?/p>

以上,是黃仁勛在現場演講中的話。他再次回憶起,2016年贈送給OpenAI的DGX-1,那也是史上第一次8塊GPU連在一起組成一臺超級計算機。

當時,DGX1 算力僅0.17 Peataflop(1 Petaflop等于每秒鐘進行1千萬億次的數學運算),而今天英偉達推出的 DGX Grace-Blackwell GB200 已經超過1 Exaflop(百億億次)的算力。

8年時間,AI算力增長1000倍。

相比上一代H100 Tensor核心的GPU,最新的Blackwell GB200 GPU可以為大語言模型(LLM)推理負載提供30倍的性能提升,而成本和能耗則降低25倍。

第二,算力的提升,意味著萬億級參數模型變得更為現實。

在技術支持下,一個GB200 NVL72最高支持27萬億參數的模型。而據泄露數據,GPT-4也不過只有1.7萬億參數。

萬億參數模型有許多優(yōu)勢,比如進行自然語言處理任務,如翻譯、問答、抽象和流暢性;掌握更長期的背景和對話能力;結合語言、視覺和語音的多模態(tài)應用;進行創(chuàng)意應用程序,例如講故事、詩歌生成和代碼生成;進行科學應用,例如蛋白質折疊預測和藥物發(fā)現;實現個性化,能夠形成一致的個性并記住用戶上下文。

第三,英偉達向軟硬一體化的平臺發(fā)展更進一步。

英偉達推出了全新的AI推理服務器NIM(NVIDIA INFERENCE MICROSERVICE),讓所有人都可以通過這一形式自定義AI模型和應用。

以英偉達NIM和CUDA作為中間樞紐,連接了百萬開發(fā)者與上億GPU芯片。 “成熟的企業(yè)平臺坐擁一座數據金礦,這些數據可以轉化為生成性AI副駕駛?!秉S仁勛表示,“這些容器化的AI微服務是我們與合作伙伴生態(tài)系統(tǒng)共同創(chuàng)造的,它們是各行各業(yè)企業(yè)成為AI公司的構建模塊?!?/p>

在醫(yī)療場景上,英偉達此次推出了基于醫(yī)療場景的25個新的微服務, 幫助全球的醫(yī)療保健公司可以基于生成式 AI進行效率提升。英偉達舉了一個例子,與在CPU上運行相比,英偉達的微服務能夠將基因組分析工作流程中的變異調用速度提高了50倍以上。目前,全球有接近50家應用程序提供商正在使用英偉達的醫(yī)療微服務。對于醫(yī)療行業(yè)公司來說,他們可以基于這些微服務,篩選數萬億種藥物化合物,收集更多的患者數據以幫助早期疾病檢測,或者實施更智能的數字助理等等。

接下來,中國大模型路往何方? 

過去一年,英偉達的股價從200多美元,上漲至現在的近900美元,市值超過2.2萬億美元。這一家公司的產品迭代速度,對人工智能的發(fā)展產生了歷史級的影響。影響力也轉化為資本市場的認可和回報。

毫無疑問,這是一個贏家通吃的行業(yè)。根據富國銀行統(tǒng)計,英偉達目前在數據中心AI市場擁有98%的市場份額,而AMD僅有1.2%的市場份額,英特爾則只有不到1%。 

英偉達的鮮花著錦,烈火烹油,也讓我們更為深入地思考中國大模型的現狀和未來。2023年上半年,因為ChatGPT的橫空出世,中國大廠與創(chuàng)業(yè)公司紛紛投身大模型,一時引發(fā)“百模大戰(zhàn)”。這又過了大半年時間,中國大模型相關的投資人和從業(yè)者,又有了市場路線與技術路線之爭:

一邊是以月之暗面創(chuàng)始人楊植麟為代表的技術路線,他們大多技術出身,思維偏硅谷,對技術有信仰,信仰AGI(人工通用智能)、信仰scaling law(規(guī)模定律),更推崇前輩OpenAI的路徑,認為隨著模型能力躍升、模型成本降低,會解鎖豐富的應用。

楊植麟在接受采訪的時候說:

“AI不是我在接下來一兩年找到什么PMF(Product/Market Fit,產品/市場匹配),而是接下來十到二十年如何改變世界——這是兩種不同思維。

我們是堅定的長期主義者。當你實現AGI或更強智能,今天的一切會被改寫。PMF固然重要,但如果著急找PMF,你很可能又被降維打擊。降維打擊發(fā)生過太多次。以前很多人做客服、對話系統(tǒng),做slot filling(槽填充),有些規(guī)模不錯的公司。但是,全是降維打擊了,很難受。

它不是說不成立。假設你今天找到一個場景,用現在的技術能力,且從0到1增量價值巨大,從1到n空間又沒那么大,這種場景OK。Midjourney就是,或者做文案生成,相對簡單一點的任務,從0到1效果又很明顯。這種是只關注應用的機會。但是,最大機會不在這。你的目的假設是商業(yè)化,你不可能脫離AGI去思考。我現在只做應用,那好,可能過一年你就被碾壓了?!?/p>

另一邊則是以周鴻祎、朱嘯虎為代表的市場路線,他們更加本土化,信奉尖端的科技必須經過開源、共創(chuàng)才能實現最大化的邊際效益,認為需將充足的AI能力投入可以快速變現的商業(yè)場景中進化,同時用國內市場特有的海量數據和應用場景構筑壁壘。

金沙江創(chuàng)投董事總經理朱嘯虎接受采訪的時候說: 

“說實話在AIGC這波,中美差距還是非常大。美國是在底層大模型,投入越來越大,像OpenAI說十萬張GPU卡連在一起。在中國是不可能的。

美國你看AI的應用創(chuàng)新,說實話只有兩條路,一條要么非常、非常薄,因為底層大模型太強大了,所以上面叫套殼應用。另一層是看上去很偉大,但肯定走不通的,像Pika。這種目標很偉大,AIGC生成視頻、電影。但這條路可能在幾年之內都看不到走通的可能性。

中國反而相反,中國在“當中”的多一點——底層大模型不夠強大,我在上面加的東西可以比較多。我在上面做增值服務,為客戶馬上能變現。這種在中國有機會。美國這種幾乎沒有,因為底層大模型太強大了,上面創(chuàng)業(yè)公司能做的很少。中國套殼,現在肯定沒人看的。在中國也套不了殼,因為大模型本身功能也就那樣,必須在上面有value add。

(中國)整出200多個大模型有啥意義呢?沒啥意義。但在應用層有很多創(chuàng)新。中國在數據和應用場景上是遠遠超過美國的?!?/p>

持有相似觀點的有李彥宏、周鴻祎、王小川等一干正在大模型之路上奮進的大佬們。

李彥宏說:“百模大戰(zhàn)是對社會資源很大的浪費。不應該去卷大模型,而應該去卷應用,只有應用才真正直接創(chuàng)造價值。做出上億用戶使用的應用時,大模型的真正價值才得到體現。

大模型這么火,它到底能產生多少實際的價值,過去一年我最主要就在思考這個問題,ChatGPT大火的時候,別人問我怎么看,我當時就說,現在這個火還有點早,真正什么時候我們能夠做出上億用戶都在使用的應用的時候,才是它真正的價值得到了體現?!?/p>

周鴻祎還指出:“選模型已經不是問題,而且都免費。去年大家都飆著OpenAI,都想搞通用大模型,想壟斷全世界。但2024年的目標變了,是大模型如何找到自己的應用場景,而最大的應用場景就是跟各行各業(yè)結合,因為和各行各業(yè)結合才能帶來工業(yè)革命?!?nbsp;

他還說:“面向傳統(tǒng)的ToB、ToG的市場,是大機會。做企業(yè)級大模型,在企業(yè)內部做私有化部署,是中國大部分企業(yè)的需要。要選擇跟企業(yè)業(yè)務深度結合的場景,也就避開了跟通用大模型的直接競爭。2024年是人工大模型的場景之年,如果找不到場景,光是在做大模型,有點像拿著錘子找釘子,如果找不到釘子,這個錘子是沒有用的?!?/p>

王小川認為,大模型開發(fā)需要強大的算力、財力和智力支持,所以“未來的兩年時間內,更多的是加入一家(大模型)公司,能夠獲得平臺級的支持,這樣做超級應用成功的概率要大很多?!?nbsp;

他認為,新進入企服行業(yè)的創(chuàng)業(yè)者還有兩個機會:一是借著大玩家轉向困難的機會,快速反應推出它們沒做到的新產品形態(tài);二是直接交付最終服務,比如呼叫中心就不要讓人家用你的軟件,而是直接讓話務員下崗。

二者對技術判斷的一個根本分歧是,開源模型會不會有一天,縮小甚至拉平與閉源模型的差距?技術路線的觀點是,絕對不會,差距只會更大。市場路線的觀點是,一定會,那意味著你今天做閉源只會處境尷尬——世界觀的迥異,讓雙方對自我的判斷都深信不疑。

朱嘯虎就直接發(fā)問:“GPT-4你要不要投入做科研?你做GPT-4科研至少砸四五千萬美金。關鍵是萬一你砸了四五千萬美金做出來,別人開源了呢?你不是全白砸了?這個是很扎心的問題。現在中國大部分公司,有幾個敢真的砸錢去研發(fā)GPT-4的?”

以終為始,我們的判斷是什么?

從投資角度來看,預判大模型的終局是什么樣的,才能有助于我們去思考市面上的哪些公司值得看好。從電商平臺大戰(zhàn)一路看過來(有誰還記得想做平臺最后一地雞毛的凡客嗎?),在科技賽道,絕大多數時候轟轟烈烈的“百云大戰(zhàn)”“千團大戰(zhàn)”,99%玩家是黯然退出,只剩下贏家通吃。

縱觀這些年的贏家通吃賽道,基本可以用兩個詞概括:新平臺、新基建。如何理解呢?通常這類玩家,為一個產業(yè)提供了新的平臺,通過技術變革的方式建立起產業(yè)新的基礎設施——類似高速公路、水電氣等基建,讓原有的產業(yè)鏈參與者能夠加入到新平臺來,享有技術變革的紅利。

什么是大模型?第一,顧名思義是規(guī)模大,網絡參數至少要達到百億規(guī)模(現在英偉達甚至解鎖了萬億規(guī)模的算力);第二,通用性,是指不限于專門問題或領域;第三,涌現性,即產生預料之外的新能力。大模型的大規(guī)模和通用性,決定了其將是具備普適性的“新平臺、新基建”,其從一個行業(yè)遷移到另一個行業(yè)的應用場景時,成本低,易遷移。

可以斷言,放在大模型這一賽道,依然將是贏家通吃的終局。

那么,現在“百模大戰(zhàn)”的玩家里,誰將笑到最后?大體來分,目前大模型的玩家有兩類,一類是大廠拉起的團隊,另一類是創(chuàng)業(yè)公司。這里可以有把握地說,在這個百模大戰(zhàn)中,大廠優(yōu)先。

我們可以參考另一個行業(yè)云計算的發(fā)展走向。當年云計算興起的時候,國內也出來很多創(chuàng)業(yè)公司玩家,但最終市場份額集中于大公司。根據IDC發(fā)布的2022年全球云計算IaaS市場追蹤數據來看,市場份額TOP10玩家都是中美的大公司,包括美國的亞馬遜、谷歌、微軟、IBM,中國的阿里、華為、騰訊、百度等。

后面我們會進一步分析。不過這里先看看制約大模型的三個要素:數據、算力和算法。 

先說數據。

數據是大模型發(fā)展的壓艙石,除了互聯網、物聯網數據之外,老百姓生活生產中產生的數據都是未來大模型要提升智能水平的必要數據源。目前,數據壁壘是真實存在的問題。高質量的中文語料數據對于創(chuàng)業(yè)公司來說是個很大的挑戰(zhàn),數據的積累需要時間和經驗。對于那些常年累月通過搜索等多個互聯網、物聯網應用積累起數據的大廠來說,可以說一開始就領先了至少幾個身位。

給AI喂下什么質量的數據,才能訓練和迭代出什么水平的AI。

目前國內“百模大戰(zhàn)”中諸多大模型開發(fā)者,是基于Meta開源的LLaMA等一系列開源社區(qū)的基礎代碼,來進行二次開發(fā)的。其能力差異主要由語料庫差異和少量微調等結合而成。

再說算力。

通用大模型需要24×7連續(xù)訓練,調度多個算力中心、協(xié)調資源,以云的方式提供智能服務,這對算力有很大的需求。隨著參與大模型訓練的企業(yè)越來越多,用來訓練大模型的數據量越來越大,對推理的要求也越來越高,大模型的應用會越來越廣。這就意味著,大模型公司必須擁有穩(wěn)定的、靠譜的、能保障安全運轉的算力。這顯然利于在云計算深耕布局的大廠。 

當年云計算創(chuàng)業(yè)公司,面臨大廠的夾擊,窄縫求生,專攻一個垂直行業(yè)的云計算市場——比如游戲行業(yè)。但是,游戲行業(yè)遭遇監(jiān)管重創(chuàng)的時候,云計算需求也大大降低,這導致該云計算創(chuàng)業(yè)公司的業(yè)務不穩(wěn)定,反過來又影響使用該家公司服務的客戶。

這也是為什么大模型和云計算同樣是贏家通吃的原因之一——大玩家能夠提供更為穩(wěn)定、可靠的服務,成為客戶的優(yōu)先選擇。

最后說算法。

大模型最底層的競爭力來自算法。算法需要龐大的高級人才和長期積累。

為什么現在看起來有很多的公司做大模型呢?因為現在有開源的大模型和很多公開的論文可供參考,所以起步上會簡單很多。但要做好大模型的門檻還是高的,像現在的GPT-4沒有公開后續(xù)技術細節(jié),國內很多大模型就很難繼續(xù)發(fā)展。

越多的應用場景,能形成越多的反饋,從而對模型進行更好的調整;而模型也因此產生更多的經濟價值,可獲得更多的資金投入,反哺自身。

需要指出的是,大模型高昂的訓練成本和研發(fā)投入,讓眾多入局者望而生畏。有企業(yè)家斷言, 每年5000萬到1億美元的花費,只是千億級大模型訓練的入場券。某個創(chuàng)業(yè)者高調宣布投資5000萬美元入局大模型時,就有分析師發(fā)朋友圈直言說:“5000萬美元夠干什么的?大模型訓練一次就花500萬美元,訓練10次?”四個月之后,該創(chuàng)業(yè)公司被收購,出局。

當年共享單車也是百團大戰(zhàn),打得頭破血流,結果笑到最后的是美團。無他,資金充足。在以年計、甚至以十年計的競爭中,這種重資本重研發(fā)的賽道,毫無疑問是利于大公司的。

這是一場漫長的、看不到終點的長跑,競爭的韌性將左右最后的結果。

以贏家通吃的終局為前提下,我們判斷是,在幾家通用大模型的基礎上,將有多個領域的垂直大模型。龍頭企業(yè)研發(fā)通用+中小企業(yè)研發(fā)應用,這種模式成為破局關鍵。

在B端領域,營銷、客服、數據分析、財務、人力等各個業(yè)務領域的企業(yè),很多都在全速接入大模型。從目前的進步來看,雖然還存在各種工程上的問題,但效果是實實在在的,的確有很大的潛力變革原來的整個產品和業(yè)務體系。

大型支付公司Klarna披露,它的AI客服現在已經能勝任700名員工的工作。這個AI客服由OpenAI提供支持,處理客戶的各種咨詢,支持多語言,能夠直接處理退款和退貨的請求。Klarna表示,在短短一個月內,AI助手就完成了700名全職客服的工作。 

到目前為止,它已經進行了230萬次對話,占公司所有客戶服務對話的三分之二。它的客戶滿意度得分與人工客服「不相上下」。而且,它在解決客戶請求方面更準確、更快速。解決請求的平均時間從11分鐘降至2分鐘。

“場景優(yōu)先,數據為王”,則將是提供服務的大模型應用公司的核心競爭力。

本文為轉載內容,授權事宜請聯系原著作權人。