正在閱讀:

AI Agent,下一個爆款級AI應用?

掃一掃下載界面新聞APP

AI Agent,下一個爆款級AI應用?

“大語言模型只能編個貪吃蛇,而AI Agent可以整出一個‘王者榮耀’?!?/p>

如果說AIGC開啟了內(nèi)容生成的智能時代,那么AI Agent則有機會把AIGC的能力真正產(chǎn)品化。

與ChatGPT等AI應用相比,AI Agent像一位更具象的全能員工,被視為人工智能機器人的初級形態(tài),軟硬件兼顧的智能體能夠如同人類一般觀察周圍的世界、做出決策并自動采取相應的行動。

AI Agent的想象力到底在哪?“大語言模型只能編個貪吃蛇,而AI Agent可以整出一個‘王者榮耀’?!边@是網(wǎng)上盛傳的回答,似乎并不夸張。比爾·蓋茨也曾說過,“誰能主宰AI Agent,那才是大事。因為你將永遠不用去搜索網(wǎng)站或者亞馬遜?!?/p>

從技術到場景,摸著石頭過河

從AIGC發(fā)展看,大致經(jīng)歷了三波浪潮。第一波是以GPT為代表的大模型的出現(xiàn);第二波是應用層的快速創(chuàng)新,如微軟Copilot,使智能化從Chat向Work轉(zhuǎn)化;第三波則是深度業(yè)務場景的應用,打通業(yè)務數(shù)字化全流程,服務實體經(jīng)濟。

在滿足企業(yè)智能化需求、打通業(yè)務場景的過程中,AI Agent作為一種理想的產(chǎn)品化落地形態(tài),正在承接日益復雜的提質(zhì)增效需求,并強化內(nèi)外部協(xié)同效能,釋放組織核心生產(chǎn)力,對抗組織熵增帶來的挑戰(zhàn)。

AI Agent通常被視為一種融合感知、分析、決策和執(zhí)行能力的智能體,它可以具備相當顯著的主動性,成為人類的理想智能助手。例如,AI Agent可以根據(jù)個人在線互動和參與事務處置時的信息,了解和記憶個體的興趣、偏好、日常習慣,識別個體的意圖,主動提出建議,并協(xié)調(diào)多個應用程序去完成任務。

Agent的概念由Minsky在其1986年出版的《思維的社會》一書中提出,Minsky認為社會中的某些個體經(jīng)過協(xié)商之后可求得問題的解,這些個體就是Agent。他還認為,Agent應具有社會交互性和智能性。Agent的概念由此被引入人工智能和計算機領域,并迅速成為研究熱點。但苦于數(shù)據(jù)和算力限制,想要實現(xiàn)真正智能的AI Agents缺乏必要的現(xiàn)實條件。

AI Agent和大模型的區(qū)別在于,大模型與人類之間的交互是基于提示詞(prompt)實現(xiàn)的。ChatGPT誕生后,AI從真正意義上具備了和人類進行多輪對話的能力,并且能針對相應問題給出具體回答與建議。用戶prompt是否清晰明確會影響大模型回答的效果,例如ChatGPT和這些Copilot都需要明確任務才能得到有用的回答。

當AI從被使用的工具變成可以使用工具的主體,這種具備任務規(guī)劃和使用工具能力的AI系統(tǒng)可被稱為Auto-Pilot主駕駛,即AI Agent。在Co-Pilot模式下,AI是人類的助手,與人類協(xié)同參與到工作流程中;在Auto-Pilot模式下,AI是人類的代理,獨立地承擔大部分工作,人類只負責設定任務目標和評估結果。

AI Agent的工作僅需給定一個目標,它就能夠針對目標獨立思考并做出行動,它會根據(jù)給定任務詳細拆解出每一步的計劃步驟,依靠來自外界的反饋和自主思考,自己給自己創(chuàng)建prompt,來實現(xiàn)目標。

從1997年“深藍”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫開始,沃森在智力問答節(jié)目《危險邊緣》中戰(zhàn)勝人類冠軍、ResNet在ImageNet圖像識別比賽中的準確率超過人類、AlphaGo在圍棋比賽中戰(zhàn)勝李世石、OpenAI Five在多人策略游戲Dota2中戰(zhàn)勝人類職業(yè)戰(zhàn)隊冠軍、AlphaFold的蛋白質(zhì)結構預測準確率超過人類等,完成這些任務背后的能力涵蓋了人類智能感知、認知、決策的各個方面,也不斷塑造著AI Agent的技術內(nèi)核。

實際上,人工智能自誕生之初就開始探索AI Agent的解決方案。最近經(jīng)歷了基于規(guī)則設計、基于強化學習和目前基于預訓練大模型三種范式。其中基于強化學習的AI Agent代表是AlphaGo和OpenAI Five,這類方法仍然是面向?qū)S萌蝿盏奶囟ōh(huán)境進行交互。預訓練大模型學習到了通用世界知識,并可以通過語言的形式輸入和輸出,因而可以泛化到不同任務和環(huán)境。

基于預訓練大模型的AI Agent又包括兩類,即智能代理和智能體。預訓練大模型的“通用”能力不僅體現(xiàn)在內(nèi)容理解和生成上,還擴展到了規(guī)劃和使用工具這類思考和決策任務。比如,我們對著一張有幾個孩子和一些小面包的圖片問“每個孩子可以平均分到幾個小面包”,大模型可以將任務規(guī)劃成檢測小面包、檢測孩子、做除法三步,并在每一步調(diào)用對應的目標檢測模型或除法工具來完成。

在圖靈獎得主Yoshua Bengio設計的AGI五個層次中,AI Agent目前大致處于第三個層次——多模態(tài)感知和第四個層次——具身與行動之間。

第一個層次是小數(shù)據(jù)訓練小模型,過去幾十年的傳統(tǒng)方法都處于這個階段。

第二個層次是用互聯(lián)網(wǎng)規(guī)模的海量數(shù)據(jù)訓練大模型,以GPT-3為代表。

第三個層次是從單模態(tài)到多模態(tài),比如GPT-4o和Gemini是文字視覺語音的多模態(tài)大模型。

第四個層次是從開環(huán)系統(tǒng)到閉環(huán)控制,就是說考慮環(huán)境反饋并結合自身狀態(tài),給出下一步操作對環(huán)境產(chǎn)生影響同時更新自身狀態(tài),比如以AutoGPT為代表的智能體和具身智能機器人。

第五個層次是從單智能體到多智能體協(xié)作,也包括機器與人類的協(xié)作,由群體智能完成復雜任務,比如多智能體原型AutoGen模擬軟件公司的不同職位協(xié)作從而實現(xiàn)高質(zhì)量的代碼自動開發(fā)和文檔自動生成。

從應用場景來看,AI Agent能夠幫助未來企業(yè)構建以“人機協(xié)同”為核心的智能化運營新常態(tài)。越來越多的業(yè)務活動都將被委托給AI,而人類則只需要聚焦于企業(yè)愿景、戰(zhàn)略和關鍵路徑的決策上。人與大量AI實體之間的協(xié)同工作模式,將顛覆當前企業(yè)的運行基礎,讓企業(yè)運營成效獲得成倍提升。

比如在電商領域,AI Agent能夠根據(jù)用戶的購物歷史、瀏覽行為和偏好提供個性化的產(chǎn)品推薦,這不僅能提高用戶滿意度,還能增加銷售額和客戶忠誠度;AI Agent還可以作為智能客服,通過自然語言處理和機器學習技術自動回答用戶咨詢,處理訂單問題和退貨請求,從而提高客戶服務效率。

在教育領域,AI Agent可以根據(jù)學生的學習進度、興趣和能力提供個性化的學習資源和輔導;而在金融領域,AI Agent可以幫助用戶管理個人財務,提供投資建議,甚至預測股票走勢。

在交通領域,AI Agent可以通過分析交通數(shù)據(jù)和實時路況提供最佳的路線規(guī)劃和交通建議。

在醫(yī)療領域,AI Agent可以幫助醫(yī)生進行疾病診斷和治療方案的制定。

在社會交互方面,AI Agent的一個重要場景是虛擬陪伴,從任務復雜度和容錯率兩方面看都是短期容易實現(xiàn)的,已經(jīng)出現(xiàn)的是像Character.ai、Talkie、Linky等面向成年人的IP類和交友類應用,未來面向老年人和兒童的AI Agent虛擬陪伴可能是更具社會價值的。從技術的角度看,提升大模型的角色扮演能力、分析和調(diào)整大模型的性格特征等都是兼具研究意義和應用價值的方向。

大數(shù)據(jù),進化之路的最大變量

從AI發(fā)展角度看,大模型為AI Agent和機器人領域所帶來的是更強大的感知能力,這種強感知能力是建立在大參數(shù)模型和巨量數(shù)據(jù)展現(xiàn)出來的智能。

AI Agent的出現(xiàn),使得大模型從“超級大腦”進化為人類的“全能助手”。AI Agent不僅需要具備處理任務和問題的智能能力,還需要擁有與人類進行自然交互的社交智能。

在AI Agent和機器人領域,一個最大的難點便是缺乏與物理世界的真實數(shù)據(jù),而得不到這些數(shù)據(jù),就無從進行訓練;即使是互聯(lián)網(wǎng)上得到的信息,在過去也很難根據(jù)這些信息進行擴展,并使AI Agent和機器人更好地理解世界。

而大模型則很好地解決了這一問題。如今的大模型已經(jīng)實現(xiàn)了視覺語言上的智能涌現(xiàn),這就意味著,通過互聯(lián)網(wǎng)上的數(shù)據(jù),機器人的感知已經(jīng)出現(xiàn)了相當強的泛化,因此能夠更好地理解真實的物理世界。

實際上,除了AI Agent,被大模型隨之帶火的還有自動駕駛。像英國自動駕駛獨角獸Wayve在融資當天,不惜花大量筆墨描繪了一個屬于“AI Agent”的未來,類似的言論也同樣出現(xiàn)在不少機器人公司的內(nèi)部。

AI大模型對于AI Agent能力提升的重要性,主要體現(xiàn)在三個方面。

首先,大模型顯著提升了AI Agent解決復雜任務的能力,根據(jù)理解,把復雜任務拆解成一系列可執(zhí)行的任務。

之后,在多模態(tài)大模型的能力下,AI Agent可以依托視覺、觸覺等在更復雜的場景里做事。

最后,體現(xiàn)在運動能力上,AI Agent可以根據(jù)AI合成的數(shù)據(jù)做模擬訓練。如果沒有大模型,機器人實現(xiàn)的功能會相對受限。

由此也看出,數(shù)據(jù)是除了大模型技術外,制約機器人下一步進化最為關鍵的要素。

如今的AI Agent與2015、2016年的自動駕駛更為類似,兩者的難點都在于高質(zhì)量數(shù)據(jù)的獲取。而如果以L0-L5幾個階段來詮釋,目前大多數(shù)AI Agent公司都處于L0到L4的過程中,而到真正的L5則還有一段距離。具體而言,L4狀態(tài)指大多數(shù)場景下,機器人可以完成某個指定動作;而L5則指任意場景下,機器人可以完成某一動作。

為了獲取足夠用于AI Agent和機器人訓練的數(shù)據(jù),不少廠商通過真實數(shù)據(jù)和仿真數(shù)據(jù)結合的方式解決。在真實數(shù)據(jù)的獲取中,廠商一般通過真人動作和機器人遙操作的方式,將任務過程中的數(shù)據(jù)“喂”給大模型。而仿真數(shù)據(jù)則是通過搭建一個盡量真實的場景,設定盡可能多的建模和現(xiàn)實參數(shù),讓虛擬化的機器人進行訓練。

不過,上述的兩種方式還是存在著各自的短板,當前AI Agent還遠未達到數(shù)據(jù)飛輪的啟動時刻。一方面真實數(shù)據(jù)的成本極高,AI Agent當前還達不到自動駕駛般的普及度。在真實數(shù)據(jù)足夠多之前,廠商需要花長時間和配備數(shù)據(jù)標準團隊來一點點積累。而對于仿真數(shù)據(jù)而言,最大的問題還是現(xiàn)實仿真不夠真實。AI Agent在模擬世界能成功,但導入到現(xiàn)實世界就會有一定的失敗率。

現(xiàn)階段,對AI Agent最大的一個限制,還是數(shù)據(jù)質(zhì)量、數(shù)據(jù)規(guī)模、應用場景不足。AI模型、AI訓練數(shù)據(jù)集、AI場景落地部署,都遠遠不夠。而隨著更高效的算法和算法的泛化能力提升,未來AI Agent學習一個技能的數(shù)據(jù)量將會從現(xiàn)在的幾千、幾萬,下降到一千甚至幾百幾十的數(shù)量級。

參考自動駕駛行業(yè)由量產(chǎn)帶來的數(shù)據(jù)飛輪,為了進一步解決數(shù)據(jù)問題,不少機器人廠商正在探索從量產(chǎn)中獲取數(shù)據(jù)。

邁出實驗室,還要答好幾道題?

AI Agent的想象力不言而喻,但現(xiàn)在的情況是廠商都在說自己是做Agent的,那么現(xiàn)階段Agent到底能做什么,沒人可以說得清楚。

雖然與大模型相比,Agent更貼近產(chǎn)業(yè),但不論是對客戶還是對開發(fā)者,Agent帶來的收益是否邁過了成本的門檻仍是未知數(shù)。Agent的發(fā)展基于大模型,而當前大模型賽道的特點是技術門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟。

首先,現(xiàn)有的技術條件下,如何解決大模型幻覺是大模型走向全面產(chǎn)業(yè)應用的難點。所謂大模型幻覺,主要指的是模型輸出了和現(xiàn)實世界不一致的內(nèi)容,例如捏造事實、分不清虛構與現(xiàn)實、相信謠言和傳說等,也就是常說的“一本正經(jīng)的胡說八道”。

這個問題若不解決,在實際應用場景中,這不僅會影響模型的準確性和穩(wěn)定性,還制約了大模型在真實場景中的廣泛應用的可靠性,這就還有很長的一步路走。

眾所周知,AI Agent發(fā)展的前提條件是多模態(tài)。在很多情況下,如智能客服場景,用戶可能會通過多種方式提供信息,多模態(tài)具有很好的感知價值。但至今在解決一些邏輯、推理等核心問題上,Agent的能力還有偏弱。因此,Agent各模塊之間如何配合、多個Agent如何交互、人類與Agent如何互動等方面,Agent技術尚處于早期階段。

其次,如何控制高昂的調(diào)用成本是擺在AI Agent面前的另一大難題。接入Agent后,所有需要處理的業(yè)務場景,都會轉(zhuǎn)化成需要底層大模型理解的數(shù)據(jù),產(chǎn)生高昂的推理成本。舉個例子,斯坦福的虛擬小鎮(zhèn)框架開源后,每個Agent一天就需要消耗20美金的Token數(shù),比用人成本還要高。

第三,國內(nèi)智能算力較為短缺的現(xiàn)狀下,各家大模型在持續(xù)投入人力、算力、資金并實現(xiàn)商業(yè)化落地方面,可能會面臨較大挑戰(zhàn)。因此,Agent想要真正實現(xiàn)規(guī)?;涞?,道阻且長。

還有很重要的一點,Agent如何保證用戶的數(shù)據(jù)安全和隱私。Agent一旦投入應用,勢必會接觸到客戶的核心數(shù)據(jù),倘若數(shù)據(jù)泄漏,可能讓用戶和社會蒙受巨大損失。

對于AI Agent,一個很殘酷的現(xiàn)實是,看項目的大有人在,投項目的屈指可數(shù)。

如今,各行各業(yè)都已不是PPT融資的時代了,無論多么前沿的技術,也只有落地走通盈利模式才能實現(xiàn)價值。AI Agent的未來一定是一場馬拉松,只有扎實做好大模型技術和找到商業(yè)化落地的路徑,才能在未來有機會不被趕下“牌桌”。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

AI Agent,下一個爆款級AI應用?

“大語言模型只能編個貪吃蛇,而AI Agent可以整出一個‘王者榮耀’?!?/p>

如果說AIGC開啟了內(nèi)容生成的智能時代,那么AI Agent則有機會把AIGC的能力真正產(chǎn)品化。

與ChatGPT等AI應用相比,AI Agent像一位更具象的全能員工,被視為人工智能機器人的初級形態(tài),軟硬件兼顧的智能體能夠如同人類一般觀察周圍的世界、做出決策并自動采取相應的行動。

AI Agent的想象力到底在哪?“大語言模型只能編個貪吃蛇,而AI Agent可以整出一個‘王者榮耀’?!边@是網(wǎng)上盛傳的回答,似乎并不夸張。比爾·蓋茨也曾說過,“誰能主宰AI Agent,那才是大事。因為你將永遠不用去搜索網(wǎng)站或者亞馬遜?!?/p>

從技術到場景,摸著石頭過河

從AIGC發(fā)展看,大致經(jīng)歷了三波浪潮。第一波是以GPT為代表的大模型的出現(xiàn);第二波是應用層的快速創(chuàng)新,如微軟Copilot,使智能化從Chat向Work轉(zhuǎn)化;第三波則是深度業(yè)務場景的應用,打通業(yè)務數(shù)字化全流程,服務實體經(jīng)濟。

在滿足企業(yè)智能化需求、打通業(yè)務場景的過程中,AI Agent作為一種理想的產(chǎn)品化落地形態(tài),正在承接日益復雜的提質(zhì)增效需求,并強化內(nèi)外部協(xié)同效能,釋放組織核心生產(chǎn)力,對抗組織熵增帶來的挑戰(zhàn)。

AI Agent通常被視為一種融合感知、分析、決策和執(zhí)行能力的智能體,它可以具備相當顯著的主動性,成為人類的理想智能助手。例如,AI Agent可以根據(jù)個人在線互動和參與事務處置時的信息,了解和記憶個體的興趣、偏好、日常習慣,識別個體的意圖,主動提出建議,并協(xié)調(diào)多個應用程序去完成任務。

Agent的概念由Minsky在其1986年出版的《思維的社會》一書中提出,Minsky認為社會中的某些個體經(jīng)過協(xié)商之后可求得問題的解,這些個體就是Agent。他還認為,Agent應具有社會交互性和智能性。Agent的概念由此被引入人工智能和計算機領域,并迅速成為研究熱點。但苦于數(shù)據(jù)和算力限制,想要實現(xiàn)真正智能的AI Agents缺乏必要的現(xiàn)實條件。

AI Agent和大模型的區(qū)別在于,大模型與人類之間的交互是基于提示詞(prompt)實現(xiàn)的。ChatGPT誕生后,AI從真正意義上具備了和人類進行多輪對話的能力,并且能針對相應問題給出具體回答與建議。用戶prompt是否清晰明確會影響大模型回答的效果,例如ChatGPT和這些Copilot都需要明確任務才能得到有用的回答。

當AI從被使用的工具變成可以使用工具的主體,這種具備任務規(guī)劃和使用工具能力的AI系統(tǒng)可被稱為Auto-Pilot主駕駛,即AI Agent。在Co-Pilot模式下,AI是人類的助手,與人類協(xié)同參與到工作流程中;在Auto-Pilot模式下,AI是人類的代理,獨立地承擔大部分工作,人類只負責設定任務目標和評估結果。

AI Agent的工作僅需給定一個目標,它就能夠針對目標獨立思考并做出行動,它會根據(jù)給定任務詳細拆解出每一步的計劃步驟,依靠來自外界的反饋和自主思考,自己給自己創(chuàng)建prompt,來實現(xiàn)目標。

從1997年“深藍”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫開始,沃森在智力問答節(jié)目《危險邊緣》中戰(zhàn)勝人類冠軍、ResNet在ImageNet圖像識別比賽中的準確率超過人類、AlphaGo在圍棋比賽中戰(zhàn)勝李世石、OpenAI Five在多人策略游戲Dota2中戰(zhàn)勝人類職業(yè)戰(zhàn)隊冠軍、AlphaFold的蛋白質(zhì)結構預測準確率超過人類等,完成這些任務背后的能力涵蓋了人類智能感知、認知、決策的各個方面,也不斷塑造著AI Agent的技術內(nèi)核。

實際上,人工智能自誕生之初就開始探索AI Agent的解決方案。最近經(jīng)歷了基于規(guī)則設計、基于強化學習和目前基于預訓練大模型三種范式。其中基于強化學習的AI Agent代表是AlphaGo和OpenAI Five,這類方法仍然是面向?qū)S萌蝿盏奶囟ōh(huán)境進行交互。預訓練大模型學習到了通用世界知識,并可以通過語言的形式輸入和輸出,因而可以泛化到不同任務和環(huán)境。

基于預訓練大模型的AI Agent又包括兩類,即智能代理和智能體。預訓練大模型的“通用”能力不僅體現(xiàn)在內(nèi)容理解和生成上,還擴展到了規(guī)劃和使用工具這類思考和決策任務。比如,我們對著一張有幾個孩子和一些小面包的圖片問“每個孩子可以平均分到幾個小面包”,大模型可以將任務規(guī)劃成檢測小面包、檢測孩子、做除法三步,并在每一步調(diào)用對應的目標檢測模型或除法工具來完成。

在圖靈獎得主Yoshua Bengio設計的AGI五個層次中,AI Agent目前大致處于第三個層次——多模態(tài)感知和第四個層次——具身與行動之間。

第一個層次是小數(shù)據(jù)訓練小模型,過去幾十年的傳統(tǒng)方法都處于這個階段。

第二個層次是用互聯(lián)網(wǎng)規(guī)模的海量數(shù)據(jù)訓練大模型,以GPT-3為代表。

第三個層次是從單模態(tài)到多模態(tài),比如GPT-4o和Gemini是文字視覺語音的多模態(tài)大模型。

第四個層次是從開環(huán)系統(tǒng)到閉環(huán)控制,就是說考慮環(huán)境反饋并結合自身狀態(tài),給出下一步操作對環(huán)境產(chǎn)生影響同時更新自身狀態(tài),比如以AutoGPT為代表的智能體和具身智能機器人。

第五個層次是從單智能體到多智能體協(xié)作,也包括機器與人類的協(xié)作,由群體智能完成復雜任務,比如多智能體原型AutoGen模擬軟件公司的不同職位協(xié)作從而實現(xiàn)高質(zhì)量的代碼自動開發(fā)和文檔自動生成。

從應用場景來看,AI Agent能夠幫助未來企業(yè)構建以“人機協(xié)同”為核心的智能化運營新常態(tài)。越來越多的業(yè)務活動都將被委托給AI,而人類則只需要聚焦于企業(yè)愿景、戰(zhàn)略和關鍵路徑的決策上。人與大量AI實體之間的協(xié)同工作模式,將顛覆當前企業(yè)的運行基礎,讓企業(yè)運營成效獲得成倍提升。

比如在電商領域,AI Agent能夠根據(jù)用戶的購物歷史、瀏覽行為和偏好提供個性化的產(chǎn)品推薦,這不僅能提高用戶滿意度,還能增加銷售額和客戶忠誠度;AI Agent還可以作為智能客服,通過自然語言處理和機器學習技術自動回答用戶咨詢,處理訂單問題和退貨請求,從而提高客戶服務效率。

在教育領域,AI Agent可以根據(jù)學生的學習進度、興趣和能力提供個性化的學習資源和輔導;而在金融領域,AI Agent可以幫助用戶管理個人財務,提供投資建議,甚至預測股票走勢。

在交通領域,AI Agent可以通過分析交通數(shù)據(jù)和實時路況提供最佳的路線規(guī)劃和交通建議。

在醫(yī)療領域,AI Agent可以幫助醫(yī)生進行疾病診斷和治療方案的制定。

在社會交互方面,AI Agent的一個重要場景是虛擬陪伴,從任務復雜度和容錯率兩方面看都是短期容易實現(xiàn)的,已經(jīng)出現(xiàn)的是像Character.ai、Talkie、Linky等面向成年人的IP類和交友類應用,未來面向老年人和兒童的AI Agent虛擬陪伴可能是更具社會價值的。從技術的角度看,提升大模型的角色扮演能力、分析和調(diào)整大模型的性格特征等都是兼具研究意義和應用價值的方向。

大數(shù)據(jù),進化之路的最大變量

從AI發(fā)展角度看,大模型為AI Agent和機器人領域所帶來的是更強大的感知能力,這種強感知能力是建立在大參數(shù)模型和巨量數(shù)據(jù)展現(xiàn)出來的智能。

AI Agent的出現(xiàn),使得大模型從“超級大腦”進化為人類的“全能助手”。AI Agent不僅需要具備處理任務和問題的智能能力,還需要擁有與人類進行自然交互的社交智能。

在AI Agent和機器人領域,一個最大的難點便是缺乏與物理世界的真實數(shù)據(jù),而得不到這些數(shù)據(jù),就無從進行訓練;即使是互聯(lián)網(wǎng)上得到的信息,在過去也很難根據(jù)這些信息進行擴展,并使AI Agent和機器人更好地理解世界。

而大模型則很好地解決了這一問題。如今的大模型已經(jīng)實現(xiàn)了視覺語言上的智能涌現(xiàn),這就意味著,通過互聯(lián)網(wǎng)上的數(shù)據(jù),機器人的感知已經(jīng)出現(xiàn)了相當強的泛化,因此能夠更好地理解真實的物理世界。

實際上,除了AI Agent,被大模型隨之帶火的還有自動駕駛。像英國自動駕駛獨角獸Wayve在融資當天,不惜花大量筆墨描繪了一個屬于“AI Agent”的未來,類似的言論也同樣出現(xiàn)在不少機器人公司的內(nèi)部。

AI大模型對于AI Agent能力提升的重要性,主要體現(xiàn)在三個方面。

首先,大模型顯著提升了AI Agent解決復雜任務的能力,根據(jù)理解,把復雜任務拆解成一系列可執(zhí)行的任務。

之后,在多模態(tài)大模型的能力下,AI Agent可以依托視覺、觸覺等在更復雜的場景里做事。

最后,體現(xiàn)在運動能力上,AI Agent可以根據(jù)AI合成的數(shù)據(jù)做模擬訓練。如果沒有大模型,機器人實現(xiàn)的功能會相對受限。

由此也看出,數(shù)據(jù)是除了大模型技術外,制約機器人下一步進化最為關鍵的要素。

如今的AI Agent與2015、2016年的自動駕駛更為類似,兩者的難點都在于高質(zhì)量數(shù)據(jù)的獲取。而如果以L0-L5幾個階段來詮釋,目前大多數(shù)AI Agent公司都處于L0到L4的過程中,而到真正的L5則還有一段距離。具體而言,L4狀態(tài)指大多數(shù)場景下,機器人可以完成某個指定動作;而L5則指任意場景下,機器人可以完成某一動作。

為了獲取足夠用于AI Agent和機器人訓練的數(shù)據(jù),不少廠商通過真實數(shù)據(jù)和仿真數(shù)據(jù)結合的方式解決。在真實數(shù)據(jù)的獲取中,廠商一般通過真人動作和機器人遙操作的方式,將任務過程中的數(shù)據(jù)“喂”給大模型。而仿真數(shù)據(jù)則是通過搭建一個盡量真實的場景,設定盡可能多的建模和現(xiàn)實參數(shù),讓虛擬化的機器人進行訓練。

不過,上述的兩種方式還是存在著各自的短板,當前AI Agent還遠未達到數(shù)據(jù)飛輪的啟動時刻。一方面真實數(shù)據(jù)的成本極高,AI Agent當前還達不到自動駕駛般的普及度。在真實數(shù)據(jù)足夠多之前,廠商需要花長時間和配備數(shù)據(jù)標準團隊來一點點積累。而對于仿真數(shù)據(jù)而言,最大的問題還是現(xiàn)實仿真不夠真實。AI Agent在模擬世界能成功,但導入到現(xiàn)實世界就會有一定的失敗率。

現(xiàn)階段,對AI Agent最大的一個限制,還是數(shù)據(jù)質(zhì)量、數(shù)據(jù)規(guī)模、應用場景不足。AI模型、AI訓練數(shù)據(jù)集、AI場景落地部署,都遠遠不夠。而隨著更高效的算法和算法的泛化能力提升,未來AI Agent學習一個技能的數(shù)據(jù)量將會從現(xiàn)在的幾千、幾萬,下降到一千甚至幾百幾十的數(shù)量級。

參考自動駕駛行業(yè)由量產(chǎn)帶來的數(shù)據(jù)飛輪,為了進一步解決數(shù)據(jù)問題,不少機器人廠商正在探索從量產(chǎn)中獲取數(shù)據(jù)。

邁出實驗室,還要答好幾道題?

AI Agent的想象力不言而喻,但現(xiàn)在的情況是廠商都在說自己是做Agent的,那么現(xiàn)階段Agent到底能做什么,沒人可以說得清楚。

雖然與大模型相比,Agent更貼近產(chǎn)業(yè),但不論是對客戶還是對開發(fā)者,Agent帶來的收益是否邁過了成本的門檻仍是未知數(shù)。Agent的發(fā)展基于大模型,而當前大模型賽道的特點是技術門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟。

首先,現(xiàn)有的技術條件下,如何解決大模型幻覺是大模型走向全面產(chǎn)業(yè)應用的難點。所謂大模型幻覺,主要指的是模型輸出了和現(xiàn)實世界不一致的內(nèi)容,例如捏造事實、分不清虛構與現(xiàn)實、相信謠言和傳說等,也就是常說的“一本正經(jīng)的胡說八道”。

這個問題若不解決,在實際應用場景中,這不僅會影響模型的準確性和穩(wěn)定性,還制約了大模型在真實場景中的廣泛應用的可靠性,這就還有很長的一步路走。

眾所周知,AI Agent發(fā)展的前提條件是多模態(tài)。在很多情況下,如智能客服場景,用戶可能會通過多種方式提供信息,多模態(tài)具有很好的感知價值。但至今在解決一些邏輯、推理等核心問題上,Agent的能力還有偏弱。因此,Agent各模塊之間如何配合、多個Agent如何交互、人類與Agent如何互動等方面,Agent技術尚處于早期階段。

其次,如何控制高昂的調(diào)用成本是擺在AI Agent面前的另一大難題。接入Agent后,所有需要處理的業(yè)務場景,都會轉(zhuǎn)化成需要底層大模型理解的數(shù)據(jù),產(chǎn)生高昂的推理成本。舉個例子,斯坦福的虛擬小鎮(zhèn)框架開源后,每個Agent一天就需要消耗20美金的Token數(shù),比用人成本還要高。

第三,國內(nèi)智能算力較為短缺的現(xiàn)狀下,各家大模型在持續(xù)投入人力、算力、資金并實現(xiàn)商業(yè)化落地方面,可能會面臨較大挑戰(zhàn)。因此,Agent想要真正實現(xiàn)規(guī)模化落地,道阻且長。

還有很重要的一點,Agent如何保證用戶的數(shù)據(jù)安全和隱私。Agent一旦投入應用,勢必會接觸到客戶的核心數(shù)據(jù),倘若數(shù)據(jù)泄漏,可能讓用戶和社會蒙受巨大損失。

對于AI Agent,一個很殘酷的現(xiàn)實是,看項目的大有人在,投項目的屈指可數(shù)。

如今,各行各業(yè)都已不是PPT融資的時代了,無論多么前沿的技術,也只有落地走通盈利模式才能實現(xiàn)價值。AI Agent的未來一定是一場馬拉松,只有扎實做好大模型技術和找到商業(yè)化落地的路徑,才能在未來有機會不被趕下“牌桌”。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。