文|極智GeeTech
英偉達的算力故事看上去似乎沒那么性感了。
短短一年時間,兩場GTC大會,臺上的黃仁勛依舊穿著熟悉的皮衣,卻多了些磕絆,少了些從容。
上一次GTC大會,正值英偉達如日中天高歌猛進。全球科技公司對生成式AI進行不計回報的瘋狂投入,將英偉達一步步推上神壇,一度成為全世界市值最大的公司。
但今年以來,英偉達的股價持續(xù)震蕩,1月27日單日跌幅接近17%,市值蒸發(fā)近6000億美元,創(chuàng)下美股單日市值損失歷史紀(jì)錄。而當(dāng)DeepSeek橫空出世,人們突然意識到,單純依賴算力的“暴力美學(xué)”已觸及邊際效益的臨界點。與此同時,AI技術(shù)的應(yīng)用瓶頸、成本壓力以及社會需求的變化,正將行業(yè)推向一個更復(fù)雜、更務(wù)實的階段。
如今的算力就像當(dāng)年的云計算,正慢慢變成AI時代的公共基礎(chǔ)設(shè)施,不可或缺但已給不出更多興奮點,其敘事邏輯也由“算力囤積”向“需求牽引”演變。
一邊是依然信奉“大力出奇跡”塑造出的模型能力,在大規(guī)模數(shù)據(jù)和算力支撐下不斷沖擊新的性能高度;另一邊是利用工程創(chuàng)新和算法優(yōu)化精雕出各類AI應(yīng)用,試圖在算力紅海中開辟一條降本增效的新通路,這種分野在產(chǎn)業(yè)實踐中愈發(fā)明顯。而這些正浮現(xiàn)的關(guān)鍵趨勢將錨定AI未來的價值坐標(biāo)。
趨勢一:大模型將從“訓(xùn)練”卷向“推理”
2024年,OpenAI的一系列動作對大語言模型領(lǐng)域產(chǎn)生了深刻影響。9月,OpenAI發(fā)布了首款推理模型o1。
類似于GPT-4等傳統(tǒng)大語言模型,在回答問題時往往依賴于預(yù)設(shè)的知識庫和訓(xùn)練模式,直接提供最先浮現(xiàn)的答案。盡管反應(yīng)迅速,但答案的準(zhǔn)確性和合理性常常難以確保,有時甚至?xí)a(chǎn)生錯誤或不合理的回答。
o1在回答問題前,會逐步分析用戶的提示詞(Prompt),通過比對不同的結(jié)果來呈現(xiàn)一個最佳回答,從而大幅減少錯誤。這種逐步推理的能力,讓AI能夠應(yīng)對更復(fù)雜的任務(wù),解決許多普通聊天機器人無法勝任的問題。
在深度學(xué)習(xí)中,“訓(xùn)練”和“推理”是兩個緊密相關(guān)但又有所不同的階段。訓(xùn)練過程通過調(diào)整模型參數(shù)來優(yōu)化模型性能,需要大量的標(biāo)注數(shù)據(jù)和計算資源;而推理過程則注重模型的預(yù)測能力,需要快速且準(zhǔn)確地生成預(yù)測結(jié)果。
值得注意的是,當(dāng)一種方法無效時,推理模型甚至?xí)詣訃L試其他方法,這種處理邏輯與人類思考和解決問題的方式頗為相似,極大地提升了模型在處理數(shù)學(xué)、物理和邏輯等復(fù)雜問題時的準(zhǔn)確性和可靠性。
比如2024年12月DeepMind推出的實驗性新型網(wǎng)絡(luò)瀏覽智能體Mariner,當(dāng)被要求尋找圣誕餅干配方并將原料添加到在線購物車時,Mariner遇到了選擇面粉種類的難題。此時,Mariner在聊天窗口中清晰地闡述了其解決策略,利用瀏覽器的后退功能返回食譜頁面以確認(rèn)所需的面粉種類。
這一行為展示了智能體能夠?qū)?fù)雜任務(wù)拆解為具體的操作步驟,并通過合理的推理選擇解決問題的行動,對智能體在現(xiàn)實場景中廣泛應(yīng)用具有重要意義。
在AI推理方面,一個重要趨勢正在浮現(xiàn)——慢速深度推理。與強調(diào)實時響應(yīng)的快速推理不同,慢速深度推理聚焦于更為復(fù)雜、需要多步邏輯鏈條的任務(wù),力求在知識復(fù)雜度和推理深度上實現(xiàn)突破。

這一趨勢的核心在于,大模型通過“分解-推理-重構(gòu)”的方式,實現(xiàn)對復(fù)雜問題的多層次理解與求解。同時,結(jié)合外部知識庫和大模型內(nèi)部的記憶系統(tǒng),AI可以通過知識調(diào)用與整合,實現(xiàn)更具深度的邏輯推理。
慢速推理雖然響應(yīng)時間略長,但能夠保證更高的輸出質(zhì)量,特別適用于對精度要求極高的任務(wù)場景。例如,在醫(yī)療診斷、金融分析、法律咨詢等行業(yè)中,慢速深度推理能夠通過多輪分析和邏輯校驗,為用戶提供精準(zhǔn)的解決方案,真正實現(xiàn)AI的“類人思考”。
從技術(shù)視角來看,當(dāng)前AI推理還存在三方面挑戰(zhàn)。
首先,面對海量的輸入與復(fù)雜的計算任務(wù),如何在資源有限的情況下實現(xiàn)快速響應(yīng)和高質(zhì)量輸出,成為AI推理的核心難題。
其次,不同用戶和企業(yè)場景對AI輸出的需求不同,需要模型具備更強的場景適配能力和定制化能力。
第三,相比預(yù)訓(xùn)練階段的高耗能,推理階段更強調(diào)輕量化與可部署性,如何降低推理成本、提升資源利用率至關(guān)重要。
由于“推理”更強調(diào)自主性以及解決復(fù)雜問題的能力,因此,從今年乃至未來很長一段時間內(nèi),“推理”將成為大語言模型領(lǐng)域的核心議題,AI的競爭規(guī)則由此被重寫——從“誰擁有更強的算力”轉(zhuǎn)向“誰能更聰明地使用算力”,相關(guān)研究和應(yīng)用將持續(xù)深化。
趨勢二:后訓(xùn)練推動AI邁入“精耕時代”
隨著預(yù)訓(xùn)練階段的算力擴張遭遇邊際效益遞減,行業(yè)焦點正轉(zhuǎn)向后訓(xùn)練優(yōu)化與實時推理架構(gòu)創(chuàng)新。以DeepSeek為代表的AI應(yīng)用的崛起并非算力的終結(jié),而是推動AI進入了“精耕時代”。
大模型訓(xùn)練通常需要經(jīng)歷三個階段:預(yù)訓(xùn)練、后訓(xùn)練、持續(xù)訓(xùn)練。
預(yù)訓(xùn)練就像是一個擁有大量語言知識的“毛坯房”,通過使用海量數(shù)據(jù)訓(xùn)練模型,使其掌握通用特征和知識。后訓(xùn)練則基于預(yù)訓(xùn)練模型,針對特定任務(wù)或數(shù)據(jù)集進行額外訓(xùn)練和精細調(diào)整,通常涉及微調(diào)、人類反饋強化學(xué)習(xí)(RLHF)、直接偏好優(yōu)化(DPO)等技術(shù),使其能夠更好地適應(yīng)諸如回答問題、生成文本、遵循指令等任務(wù)。
例如,一個預(yù)訓(xùn)練模型可能在一般的語言理解上表現(xiàn)不錯,但對于專業(yè)領(lǐng)域的問題回答可能不夠準(zhǔn)確,通過后訓(xùn)練,它可以在該領(lǐng)域的知識和推理能力上得到顯著提升。
在模型完成預(yù)訓(xùn)練和后訓(xùn)練后,需要繼續(xù)在新數(shù)據(jù)上進行訓(xùn)練,以不斷更新和提升模型性能。這一階段可能在模型部署后的任何時間進行,從而適應(yīng)新數(shù)據(jù)并保持模型性能的穩(wěn)定提升。
數(shù)據(jù)是后訓(xùn)練的核心要素之一。數(shù)據(jù)合成技術(shù)可以生成新的訓(xùn)練數(shù)據(jù),增加數(shù)據(jù)的多樣性和數(shù)量。例如,通過一些規(guī)則和模板,可以生成大量的對話示例、問題與回答對。同時,數(shù)據(jù)處理也非常關(guān)鍵,需要對數(shù)據(jù)進行清洗,去除噪聲、重復(fù)和錯誤的數(shù)據(jù),還會進行質(zhì)量評估和分類,確保用于訓(xùn)練的數(shù)據(jù)是高質(zhì)量且符合任務(wù)需求的。
以Llama 3.1為例,首先,它使用了大量的合成數(shù)據(jù)和人類偏好數(shù)據(jù)進行訓(xùn)練,以提高模型的泛化能力和準(zhǔn)確性。其次,它采用了迭代訓(xùn)練的方法,通過多輪訓(xùn)練和生成來逐步優(yōu)化模型性能。最后,它還采用了數(shù)據(jù)清洗、質(zhì)量控制和語義去重等手段來確保訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。
在具體實踐中,Llama 3.1的后訓(xùn)練過程包括多個階段。在每個階段中,都需要仔細調(diào)整數(shù)據(jù)比例、優(yōu)化模型參數(shù),并在多個基準(zhǔn)測試上評估模型性能。通過多輪迭代和不斷優(yōu)化,Llama 3.1最終取得了顯著的性能提升。
在提高模型性能方面,后訓(xùn)練技術(shù)體現(xiàn)在增強模型的適應(yīng)性、任務(wù)專注性、魯棒性以及降低數(shù)據(jù)依賴等多個方面。這使得后訓(xùn)練不再是一個可有可無的步驟,而是現(xiàn)代AI系統(tǒng)首要的組成部分,尤其是在追求高效和精準(zhǔn)的任務(wù)完成能力時。隨著研究的深入,預(yù)計后訓(xùn)練技術(shù)將繼續(xù)演進,進一步增強模型性能,推動AI應(yīng)用的廣泛落地。
同時,后訓(xùn)練對于人類數(shù)據(jù)的依賴性降低,促使研究者和開發(fā)者需要在技術(shù)、流程和策略上進行調(diào)整,以適應(yīng)新的挑戰(zhàn)和機遇,未來,隨著自監(jiān)督學(xué)習(xí)、數(shù)據(jù)增強和領(lǐng)域適應(yīng)等技術(shù)的持續(xù)進步,我們會看到在更少的人類數(shù)據(jù)和資源投入下,仍能實現(xiàn)高性能模型的成功案例。
在發(fā)展高級推理模型方面,后訓(xùn)練能力至關(guān)重要,這不僅體現(xiàn)在模型性能的提升上,還涉及到模型在復(fù)雜理解、動態(tài)知識更新和跨域適應(yīng)等多方面的能力。隨著后訓(xùn)練技術(shù)的不斷完善和應(yīng)用,預(yù)計將為高級推理模型的發(fā)展提供更為堅實的基礎(chǔ),特別是在問題解決和決策支持方面的應(yīng)用。
趨勢三:多智能體協(xié)同將激發(fā)AI“群體智能”
隨著大模型的深入研究,多智能體協(xié)同已經(jīng)成為AI研究最熱門的方向之一。
盡管基于大語言模型的ChatGPT、DeepSeek等具有強大的文本理解和生成能力,但它們本質(zhì)上仍是作為孤立實體運行的,缺乏與其他智能體協(xié)作和從社交互動中獲取知識的能力,這種固有限制阻礙了它們從他人的多輪反饋中學(xué)習(xí)并提高其性能的潛力。
亞當(dāng)·斯密在《國富論》的開篇提到,“勞動生產(chǎn)力上最大的增進,以及運用勞動時所表現(xiàn)的更大的熟練、技巧和判斷力,都是分工的結(jié)果?!?/p>
根據(jù)分工原則,擁有專業(yè)技能和領(lǐng)域知識的單個智能體可以從事特定的任務(wù)。一方面,通過分工,智能體處理特定任務(wù)的技能不斷精煉;另一方面,將復(fù)雜任務(wù)分解為多個子任務(wù)可以減少在不同流程之間切換的時間。最終,多個智能體之間的有效分工可以完成比沒有特定分工時多得多的工作量,從而大幅提高整個系統(tǒng)的效率和輸出質(zhì)量。
2025年,AI推理成本的大幅下降為多智能體系統(tǒng)協(xié)同提供了經(jīng)濟基礎(chǔ)。多智能體系統(tǒng)(Multi-Agent System)是由大型語言模型驅(qū)動,并以特定方式連接的多個獨立智能體組成的復(fù)雜系統(tǒng)。其中的每個智能體都配置有獨立的提示詞、大語言模型以及相應(yīng)的工具。
該系統(tǒng)的設(shè)計旨在促使不同智能體之間實現(xiàn)高效的協(xié)同合作,通過這種協(xié)同作業(yè)模式,為解決復(fù)雜問題提供了更為靈活和強大的解決方案。多智能體有不同的交互協(xié)作模式,最典型的包括層級結(jié)構(gòu)、集中結(jié)構(gòu)、分散結(jié)構(gòu)、混合結(jié)構(gòu)等。
以Manus為例,其技術(shù)架構(gòu)以多智能體協(xié)同為核心,采用分層結(jié)構(gòu)與動態(tài)任務(wù)調(diào)度機制,通過規(guī)劃智能體、執(zhí)行智能體、驗證智能體的協(xié)同,實現(xiàn)了從任務(wù)理解到成果交付的全流程自動化,大幅提升對復(fù)雜任務(wù)的處理效率。

規(guī)劃智能體負責(zé)解析用戶指令并拆解成可執(zhí)行的子任務(wù),并動態(tài)分配至執(zhí)行智能體進行任務(wù)執(zhí)行,同時監(jiān)控執(zhí)行路徑并實時修正;執(zhí)行智能體負責(zé)各個子任務(wù)的具體執(zhí)行,包括代碼生成、數(shù)據(jù)抓取、分析建模等各類智能體,可以調(diào)用各種工具的API接口;驗證智能體通過交叉校驗機制確保結(jié)果準(zhǔn)確性。三類智能體共同協(xié)作完成復(fù)雜任務(wù)。
系統(tǒng)中的每個智能體都具備一定的自主性,能夠在沒有外界直接干預(yù)的情況下,根據(jù)自身的目標(biāo)和所感知到的信息做出決策。它們并非孤立存在,而是通過相互之間的信息共享、任務(wù)協(xié)作和資源分配等交互方式,共同完成復(fù)雜的任務(wù)。同時,智能體能夠適應(yīng)環(huán)境的變化,實時調(diào)整自己的策略和行為。
以城市交通管理為例,每一輛自動駕駛汽車都可以看作是一個智能體。它們各自感知周圍的路況信息,如車輛密度、道路狀況、信號燈狀態(tài)等,然后自主決策行駛速度、路線等。同時,這些車輛之間還會進行信息交互,比如分享前方的路況擁堵信息,從而實現(xiàn)協(xié)同駕駛,提高整個城市交通系統(tǒng)的運行效率,減少擁堵。
業(yè)內(nèi)普遍認(rèn)為2025年是AI智能體爆發(fā)元年。Gartner預(yù)測,2028年至少15%的日常工作決策將由智能體完成。當(dāng)前,比較主流的多智能體技術(shù)框架包括微軟的AutoGen、MetaGPT、清華的AgentVerse、XAgent、AutoAgent、CrewAI等,這些項目從不同角度提出智能體系統(tǒng)規(guī)劃模塊的改進建議,其中包括長短期規(guī)劃、規(guī)劃輸出格式、用戶提示拓展解釋、反饋迭代機制等,為多智能體高效協(xié)作奠定技術(shù)基礎(chǔ)。
趨勢四:強化學(xué)習(xí)不斷沖破推理“天花板”
1947年,艾倫·圖靈在一次演講中提到“我們想要的是一臺能夠從經(jīng)驗中學(xué)習(xí)的機器”。
2025年,圖靈獎頒給了兩位畢生致力于解決圖靈這一問題的科學(xué)家——安德魯·巴托(Andrew Barto)與理查德·薩頓(Richard Sutton)。他們不僅是AlphaGo和ChatGPT技術(shù)上的奠基人,亦是機器學(xué)習(xí)領(lǐng)域的技術(shù)先驅(qū)。
如果說機器學(xué)習(xí)是“填鴨式”學(xué)習(xí),那強化學(xué)習(xí)就是“放養(yǎng)式”學(xué)習(xí)。
傳統(tǒng)的機器學(xué)習(xí),就是給模型被喂大量標(biāo)注好的數(shù)據(jù),建立輸入和輸出之間固定的映射關(guān)系。而強化學(xué)習(xí),是在沒有明確指導(dǎo)的情況下,智能體通過不斷試錯和獎懲機制給出的反饋信號,逐漸調(diào)整下一步行動策略,并且循環(huán)往復(fù),不斷接近最優(yōu)策略。

就像一個機器人學(xué)走路,不需要人類一直告訴它“這步對,那步錯”,它只要嘗試、摔倒、調(diào)整,最終自己就會走路了,甚至走出自己獨特的步態(tài)。
顯而易見,強化學(xué)習(xí)的原理更接近人類的智能,就像每個幼童在跌倒里學(xué)會走路,在摸索中學(xué)會抓取,在咿呀里捕捉音節(jié),學(xué)會語言。
強化學(xué)習(xí)的高光時刻是2016年AlphaGo的“神之一手”。當(dāng)時AlphaGo在與李世石的比賽中,第37手落下了一步令所有人類驚訝的白棋,一步棋逆轉(zhuǎn)敗勢,一舉贏下李世石。
AlphaGo不是靠背棋譜背出來的“神之一手”,而是在無數(shù)次自我對弈中,試錯、長遠規(guī)劃、優(yōu)化策略后自主探索出來,這就是強化學(xué)習(xí)的本質(zhì)。
而最近爆火的宇樹科技回旋踢機器人背后也是強化學(xué)習(xí)的訓(xùn)練。
強化學(xué)習(xí)特別擅長處理規(guī)則復(fù)雜、狀態(tài)多變的環(huán)境,并在其中找到最優(yōu)解,比如自動駕駛、機器人控制等。這些正是當(dāng)下最前沿的AI應(yīng)用領(lǐng)域,尤其是在大語言模型上,幾乎所有領(lǐng)先的大語言模型都使用了RLHF(基于人類反饋的強化學(xué)習(xí))的訓(xùn)練方法,即讓人類對模型的回答進行評分,模型根據(jù)反饋改進。
作為后訓(xùn)練、推理階段的關(guān)鍵技術(shù),強化學(xué)習(xí)將會得到更多的創(chuàng)新應(yīng)用。比如機器人領(lǐng)域,通過強化學(xué)習(xí),機器人可以自主地適應(yīng)不同的環(huán)境和任務(wù),提高工作效率和安全性。例如,在輔助康復(fù)訓(xùn)練中,機器人可以根據(jù)患者的力量和姿勢調(diào)整其輔助力度,以幫助患者恢復(fù)功能。
自動駕駛領(lǐng)域,強化學(xué)習(xí)可以幫助自動駕駛汽車學(xué)習(xí)如何在復(fù)雜路況下安全行駛。通過與交通環(huán)境的交互,自動駕駛車輛可以不斷優(yōu)化其駕駛策略,提高駕駛的安全性、舒適性和效率。然而,將強化學(xué)習(xí)應(yīng)用于自動駕駛也面臨著一些挑戰(zhàn),包括如何處理傳感器數(shù)據(jù)的不確定性、如何解決算法收斂性和穩(wěn)定性等問題。
盡管強化學(xué)習(xí)還面臨著一些挑戰(zhàn),例如學(xué)習(xí)效率、獎勵函數(shù)設(shè)計、安全性等問題,但隨著研究的深入,強化學(xué)習(xí)的應(yīng)用領(lǐng)域?qū)⒊掷m(xù)拓展,深度強化學(xué)習(xí)算法將不斷改進,多智能體強化學(xué)習(xí)和可解釋性強化學(xué)習(xí)也將成為重要的研究方向。
趨勢五:物理AI加速消融虛擬與現(xiàn)實邊界
早前,黃仁勛不止一次強調(diào)過,“AI的新一波浪潮是物理AI”。
在十年的時間里,AI從感知和計算機視覺,發(fā)展到了生成式AI,現(xiàn)在又到了代理AI階段,即具有推理能力的AI,未來將是物理AI時代。

如今大多數(shù)AI并不理解物理定律,不以物質(zhì)世界為基礎(chǔ),而產(chǎn)生影像、視訊、3D圖形和許多物理現(xiàn)象,需要基于物理并理解物理定律的AI。
物理AI是一種使自主機器(如機器人、自動駕駛汽車等)能夠在真實物理世界中感知、理解和執(zhí)行復(fù)雜操作的技術(shù)。
物理AI的提出有其必然性。一方面,基于互聯(lián)網(wǎng)上大量文本和圖像數(shù)據(jù)訓(xùn)練的生成式AI模型(GPT、Llama等)在生成人類語言和抽象概念方面已經(jīng)基本滿足需求,但是受其生成規(guī)則的限制,對于物理世界的理解有限,因此會出現(xiàn)不符合現(xiàn)實世界規(guī)律的“幻覺”。
另一方面,機器無法感知和察覺它們周圍的世界,但借助物理AI,就可以構(gòu)建和訓(xùn)練自動駕駛、機器人等各類智能體,并與真實世界進行無縫交互并適應(yīng)各種環(huán)境,有利于提高現(xiàn)實世界應(yīng)用的可訪問性和功能性。
物理AI能夠理解三維世界的空間關(guān)系和物理行為,因此進一步擴展了生成式AI,其通過在AI訓(xùn)練過程中加入更多真實場景數(shù)據(jù),從而實現(xiàn)對物理世界的洞察和理解。通俗地理解,就是AI反饋的內(nèi)容要符合物理規(guī)律。
作為物理AI在交通領(lǐng)域的重要應(yīng)用之一,依托MogoMind大模型構(gòu)建的AI網(wǎng)絡(luò)將交通流量、氣象條件、道路狀況、城市環(huán)境等物理世界實時數(shù)據(jù)納入模型訓(xùn)練,通過整合車輛、道路、云端等多方數(shù)據(jù),可以進行實時分析并為精準(zhǔn)決策提供支持,幫助駕駛員和自動駕駛車輛即時優(yōu)化決策。
同時,通過大模型對攝像頭視頻流進行實時處理,可以為交通管理部門提供精準(zhǔn)的交通流量分析預(yù)測與動態(tài)優(yōu)化、事故預(yù)警、交通信號優(yōu)化等服務(wù)。
在機器人應(yīng)用領(lǐng)域,物理AI賦予機器人更強的環(huán)境感知、理解和交互能力。傳統(tǒng)的機器人只能按照預(yù)設(shè)程序執(zhí)行任務(wù),而搭載物理AI的機器人則能夠更好地理解周圍環(huán)境,并根據(jù)物理規(guī)律做出相應(yīng)的反應(yīng)。它們可以更好地識別物體、預(yù)測運動軌跡、并在復(fù)雜環(huán)境中進行導(dǎo)航和操作。
IDC數(shù)據(jù)顯示,隨著AI應(yīng)用持續(xù)走深向?qū)?,大模型在金融、醫(yī)療、教育、零售、能源等多個行業(yè)領(lǐng)域?qū)崿F(xiàn)初步應(yīng)用。到2025年,全球AI支出將達2270億美元。預(yù)計到2030年,AI將為全球經(jīng)濟貢獻19.9萬億美元,推動全球GDP增長3.5%。而目前,幾乎98%的企業(yè)領(lǐng)導(dǎo)者將AI視為其組織的優(yōu)先事項。
2025年,AI將朝著輕量化設(shè)計、強推理能力提升、移動端應(yīng)用普及的方向快速發(fā)展。當(dāng)行業(yè)不再為算力神話狂歡,AI終將回歸本質(zhì)——成為解決問題的基礎(chǔ)設(shè)施。五大趨勢的背后,是一條清晰的進化路徑:從追求規(guī)模到注重效率、從單一能力到系統(tǒng)協(xié)作、從數(shù)字孿生到虛實共生。
未來的AI競爭,將是效率、生態(tài)與場景落地的多維博弈。對于市場,這或許是跳出“七巨頭”引力場,重估技術(shù)價值的時刻;對于行業(yè),則是一場從“造神”到“務(wù)實”的集體覺醒。
“魔法”終會退潮,而真正的工程革命,此刻才剛剛開始。