文|腦極體
AI Agent,正在接棒大語(yǔ)言模型LLM,成為AI圈最火的話題。
目前,AI創(chuàng)投圈的眾生相,大概是這樣的:
大廠俱樂(lè)部:OpenAI內(nèi)部員工聲稱,AI Agent是OpenAI的新方向;微軟嘗試推動(dòng)copilot,讓AI以助理的角色落地,這是一種典型的AI Agent場(chǎng)景;英偉達(dá)推出了Voyager,這個(gè)AI Agent可以自主寫(xiě)代碼,獨(dú)霸游戲《我的世界》;國(guó)內(nèi)商湯也推出了通才AI智能體;阿里推出了數(shù)字員工……
學(xué)術(shù)圈:今年四月,斯坦福創(chuàng)建了一個(gè)西部世界小鎮(zhèn),讓25個(gè)AI Agents在虛擬小鎮(zhèn)的沙盒環(huán)境中模擬人類(lèi),與其他AI Agents戀愛(ài)、派對(duì)、協(xié)作、約會(huì)等。另外,也有學(xué)者開(kāi)始利用AI Agents設(shè)計(jì)復(fù)雜科學(xué)實(shí)驗(yàn),包括自動(dòng)上網(wǎng)閱讀論文、研究抗癌藥物……這些前沿探索讓人大開(kāi)腦洞。
創(chuàng)業(yè)圈:AI Agent并不只是頂級(jí)科學(xué)家的游戲,目前已經(jīng)涌現(xiàn)出了Camel、AutoGPT、BabyAGI、AgentGPT等非常多的項(xiàng)目,并有一大批開(kāi)源社區(qū)開(kāi)發(fā)者和創(chuàng)業(yè)者,利用這些開(kāi)源項(xiàng)目打造一些實(shí)用工具。比如aomni,就是一個(gè)幫助用戶抓取網(wǎng)絡(luò)信息并郵件發(fā)送的AI Agent應(yīng)用程序。
投資圈:AI Agent被認(rèn)為是“通往通用人工智能(AGI)時(shí)代的開(kāi)始”,其爆發(fā)是“鐵板釘釘”,有硅谷創(chuàng)業(yè)者表示,跟投資人聊到Generative Agents ,大家都特別期待,并希望多了解、靠的更近,在后續(xù)爆發(fā)時(shí)反應(yīng)更快。
從這些判斷來(lái)說(shuō),說(shuō)“AI Agent開(kāi)啟大模型下半場(chǎng)”,還為時(shí)尚早,但“AI Agent是大模型的商業(yè)化標(biāo)配”,應(yīng)該是清晰的了。
所以,接下來(lái)我們應(yīng)該會(huì)看到,更多大廠和創(chuàng)業(yè)公司,都在AI Agent上有更多動(dòng)作。
那么,AI Agent究竟是什么?為什么說(shuō)它是大模型商業(yè)化的必要條件?
大模型心高氣傲,用戶仍不買(mǎi)單
這里我們先把AI Agent放在一邊,來(lái)看看大模型究竟是一個(gè)什么狀況。
相信大多數(shù)讀者都認(rèn)可,大模型是一個(gè)高愿景、高投入、高門(mén)檻的東西,往情懷說(shuō),可能實(shí)現(xiàn)通用人工智能,徹底改變社會(huì);往世俗說(shuō),可以重構(gòu)業(yè)務(wù)/產(chǎn)品,讓科技企業(yè)業(yè)績(jī)狂飆。
但這些都有建立在,大模型能夠真正商業(yè)化落地,回收研發(fā)成本,良性可持續(xù)發(fā)展的基礎(chǔ)上。
幾個(gè)月下來(lái),大模型的兩個(gè)商業(yè)模式,是比較有效的:一個(gè)是各類(lèi)行業(yè)政企對(duì)大模型的私有化本地部署;一個(gè)是通過(guò)云、AI服務(wù)器等售賣(mài)大模型所需要的算力。
目前,已經(jīng)有國(guó)內(nèi)廠商發(fā)布了相應(yīng)的業(yè)務(wù)報(bào)告,已經(jīng)從行業(yè)私有化部署的需求中獲得了千萬(wàn)級(jí)收入。
但是,僅靠ToB業(yè)務(wù),顯然不能支撐起一個(gè)大模型的商業(yè)模式。
一場(chǎng)技術(shù)革命,核心技術(shù)一定要流淌出去,讓幾十億普通用戶用起來(lái),才能創(chuàng)造出經(jīng)濟(jì)價(jià)值。家用PC、互聯(lián)網(wǎng)、智能手機(jī),都是在大眾普及之后,諸多科技企業(yè)的市值一飛沖天。
現(xiàn)在,巨頭們都為訓(xùn)大模型投入了大量資源,尤其是基礎(chǔ)模型,動(dòng)輒千億、萬(wàn)億的參數(shù)規(guī)模,必須讓大眾用戶用起來(lái)。
那么,實(shí)際應(yīng)用體驗(yàn)怎么樣呢?
閑聊、畫(huà)圖、創(chuàng)意之類(lèi)的場(chǎng)景容錯(cuò)率高,就算AI答錯(cuò)了用戶還覺(jué)得“萌萌噠”,這部分應(yīng)用已經(jīng)很卷了,比如“AI證件照”。而絕大多數(shù)場(chǎng)景,都是需要AI來(lái)自動(dòng)幫助自己處理較為嚴(yán)肅的任務(wù),與其他環(huán)境條件進(jìn)行協(xié)作,應(yīng)對(duì)長(zhǎng)線條、連續(xù)性的業(yè)務(wù),不要出現(xiàn)太多錯(cuò)誤,不然人還得大量參與,并不能真的提高生產(chǎn)力。
這類(lèi)場(chǎng)景,顯然目前,一個(gè)龐大且復(fù)雜的通用大模型,是不能很好地解決的。
就拿我這種撰稿來(lái)說(shuō),讓大模型幫我寫(xiě)稿子,它可能有幻覺(jué),提到的事件/新聞/論文我都得再次復(fù)查確認(rèn)一下,比我自己找資料還費(fèi)事,不夠精準(zhǔn),想一個(gè)創(chuàng)意還得我用提示詞啟發(fā)半天,都不一定有能用的,又慢又累,還不如自己寫(xiě)。
不能一步到位,自動(dòng)化地完成任務(wù),需要大量人類(lèi)參與干預(yù)review,是目前大模型在嚴(yán)肅場(chǎng)景中應(yīng)用的一大難點(diǎn),也直接影響到了大模型落地和商業(yè)化的進(jìn)展。
怎么辦呢?大模型想要表現(xiàn)出色,急需一群幫手,那就是AI Agents。
真·解放生產(chǎn)力,AI Agent為什么神奇?
試想一下,如果大模型能自己全天7*24小時(shí)工作,還不需要人工參與,自己就能完成各種任務(wù),人只要偶爾回到電腦前、辦公室看看它做的咋樣,這才是大模型的正確打開(kāi)方式啊。
OpenAI在GPT-4發(fā)布會(huì)上,確實(shí)也展現(xiàn)了一些自動(dòng)化完成任務(wù)的能力,比如讓GPT4識(shí)別草圖生成網(wǎng)頁(yè),step by step一步步修改自己代碼中錯(cuò)誤。
但是,這種能力怎么被開(kāi)發(fā)者和普通用戶用到呢?很多開(kāi)發(fā)者都反應(yīng),直接使用GPT4寫(xiě)代碼還是得自己debug,并不能看圖生成直接用的代碼,有時(shí)候不如不用。
大模型廠商也為難啊,我已經(jīng)開(kāi)放了API,要更專(zhuān)業(yè)精準(zhǔn)精細(xì)化的能力,還得有人來(lái)進(jìn)一步開(kāi)發(fā),這就把接力棒交給了AI Agent。
AI Agent(智能體),是AI在環(huán)境中的自動(dòng)化實(shí)體,有四個(gè)核心特征:
1. 通過(guò)傳感器感知周?chē)沫h(huán)境。這個(gè)環(huán)境,既可以是虛擬的,比如沙盒游戲、模擬訓(xùn)練系統(tǒng)、自動(dòng)駕駛模擬器等,也可以是物理的,比如馬路、房間、流水線等。
2. 可以自主做出決定。
3. 由執(zhí)行器/效應(yīng)器一起來(lái)采取行動(dòng)。
4.基于績(jī)效最大化和結(jié)果最優(yōu)化來(lái)學(xué)習(xí)進(jìn)步。
從這個(gè)角度看,其實(shí)人類(lèi)自己也是一種“智能代理”AI Agent,我們可以通過(guò)眼睛、耳朵、皮膚等感知外界環(huán)境的變化,再通過(guò)大腦做出決策,用嘴說(shuō)、用腿走來(lái)做出行動(dòng),并且根據(jù)獎(jiǎng)勵(lì)反饋來(lái)不斷調(diào)整適應(yīng)外界環(huán)境。
其實(shí),Agents in AI也是一樣的邏輯。就拿自動(dòng)駕駛場(chǎng)景的AI Agent來(lái)說(shuō),就需要傳感器來(lái)采集信息,感知道路車(chē)輛行人等環(huán)境因素,再由系統(tǒng)自動(dòng)決策,驅(qū)動(dòng)油門(mén)、制動(dòng)器等設(shè)備做出相應(yīng)的反應(yīng)。
這也被稱為AI Agent的PEAS模型。我們給大家簡(jiǎn)單做個(gè)表,感受一下:
那么,具體在大模型上,AI Agent可以帶來(lái)什么影響了?主要有以下幾個(gè)關(guān)鍵的作用:
第一,拆解任務(wù)。
大模型要和某個(gè)具體領(lǐng)域結(jié)合,面對(duì)的用戶需求是比較籠統(tǒng)的,過(guò)程往往會(huì)涉及到多個(gè)步驟。就好比用戶說(shuō)“要有光”,孤立的大模型既不知道所在的環(huán)境有什么燈具,也不知道怎么控制,所以有了大模型也不能搞定這個(gè)看似簡(jiǎn)單其實(shí)復(fù)雜的任務(wù)。
而AI Agent具有任務(wù)規(guī)劃能力,可以自動(dòng)理解并決定,如何規(guī)劃步驟、分配資源、優(yōu)化決策,進(jìn)而完成指令,提升了大模型處理任務(wù)的效率和精度。
谷歌大腦研究團(tuán)隊(duì)的一篇論文中,就讓大語(yǔ)言模型把任務(wù)步驟分解的推理過(guò)程,也就是“內(nèi)心獨(dú)白”都說(shuō)出來(lái),再去做相應(yīng)的動(dòng)作,一下子就提高了大模型答案的準(zhǔn)確性,在多個(gè)數(shù)據(jù)集上都取得了SOTA 效果,讓大模型胡說(shuō)八道的情況有所改善。
第二,自動(dòng)執(zhí)行。
AI Agent被設(shè)計(jì)為獨(dú)立思考和行動(dòng),用戶只需要給它一個(gè)任務(wù),讓它做事就可以了。AutoGPT的典型案例就是點(diǎn)披薩,不需要用戶自己輸入地址、選擇口味,AI Agent將所有點(diǎn)餐步驟都大包大攬,自動(dòng)執(zhí)行,人在一邊看著,發(fā)現(xiàn)出錯(cuò)及時(shí)糾正就好了。
AI Agent不止能使用互聯(lián)網(wǎng),還可以在物理環(huán)境中工作,控制機(jī)器人拿快遞、無(wú)人車(chē)、自動(dòng)駕駛等。
有了AI Agent,用戶和大模型之間的交互,會(huì)更加自然、簡(jiǎn)單、快速,減少人工參與,真正提質(zhì)增效。比如游戲世界中,AI Agent可以自動(dòng)跟玩家展開(kāi)對(duì)話,提供開(kāi)放式的交互,根據(jù)玩家的反饋來(lái)設(shè)計(jì)無(wú)限故事線,真正讓游戲做到千人千面;物理世界中,AI Agent自動(dòng)生成指令和操作,驅(qū)動(dòng)機(jī)械身體,為人類(lèi)提供家政服務(wù),在工廠里自動(dòng)化作業(yè),不依賴人類(lèi)的指導(dǎo)就能完成。
第三,節(jié)約資源。
AI Agent像人一樣,能夠使用工具,也就是調(diào)用API,來(lái)處理更加復(fù)雜的任務(wù),這就很好地?cái)U(kuò)展了大模型的能力,減少了對(duì)資源的浪費(fèi)和過(guò)度消耗。
比如AutoGPT寫(xiě)代碼,要對(duì)專(zhuān)有信息源數(shù)據(jù)、算力資源等進(jìn)行訪問(wèn),這個(gè)過(guò)程中AI Agent可以自動(dòng)找到合適的API來(lái)進(jìn)行調(diào)用,這樣就可以避免浪費(fèi)其他API token。還能夠自主學(xué)習(xí),對(duì)結(jié)果進(jìn)行優(yōu)化,如果不滿意就重新調(diào)用 API。
一般來(lái)說(shuō),要真正完成一項(xiàng)不明確的用戶指令,比如旅行規(guī)劃,需要模型調(diào)用多個(gè)API才能解決問(wèn)題,自動(dòng)化強(qiáng)的AI Agent無(wú)疑能夠很好地節(jié)省資源,進(jìn)而為用戶節(jié)省成本,讓AI應(yīng)用更有吸引力和競(jìng)爭(zhēng)力。
第四,吸引開(kāi)發(fā)者。
對(duì)大模型的商業(yè)化來(lái)說(shuō),API模式需要盡可能多的開(kāi)發(fā)者群體參與,行業(yè)模式也需要ISV集成商、軟件服務(wù)商等。大家都知道,和大廠卷基礎(chǔ)模型是很難有勝算的,更希望在細(xì)分的上層應(yīng)用上找到機(jī)會(huì)。而AI Agent能夠解決具體問(wèn)題、提高模型效果,驅(qū)動(dòng)數(shù)字系統(tǒng)和物理實(shí)體,就非常適合來(lái)構(gòu)建超級(jí)應(yīng)用。
如果說(shuō)AI Agent就像是一個(gè)最小單位的AI生命,那么大模型廠商就是孕育生命的工廠,而開(kāi)發(fā)者、軟件商等就像是技能培訓(xùn)班,教會(huì)它們一些實(shí)用而有差別的技能,到行業(yè)和用戶身邊努力工作。
所以,哪個(gè)大模型能夠更好地構(gòu)建AI Agent,能吸引的開(kāi)發(fā)生態(tài)就會(huì)更龐大,對(duì)商業(yè)B端用戶的粘性更強(qiáng),形成一個(gè)AI平臺(tái)級(jí)的巨大機(jī)會(huì)。
總結(jié)一下,AI Agent直接影響到大模型的模型效果、服務(wù)質(zhì)量、落地成本、生態(tài)能力,將是接下來(lái)各個(gè)大模型的競(jìng)爭(zhēng)關(guān)鍵。
AI Agent做得好,模型少不了
那你可能會(huì)問(wèn)了,那怎么才能產(chǎn)生好的AI Agent呢?這對(duì)大模型提出了哪些挑戰(zhàn)?
我們認(rèn)為,AI Agent想要落地,需要大模型做好以下工作,這也是接下來(lái)的競(jìng)爭(zhēng)焦點(diǎn):
1.基礎(chǔ)模型。
AI Agent的能力和效果,是由底層基礎(chǔ)模型的能力決定的。基礎(chǔ)模型有的能力,AI Agent不一定能用上,但基礎(chǔ)模型沒(méi)有的能力,AI Agent一定沒(méi)有。
就拿語(yǔ)言任務(wù)來(lái)說(shuō),GPT-4提供了很強(qiáng)的自然語(yǔ)言理解能力,但目前真正部署到AI Agent和產(chǎn)品中的很少,一些游戲中的智能體NPC還是沒(méi)有自主決策的行為能力的。
再比如,GPT-4雖然有多模態(tài),但只開(kāi)放了語(yǔ)言API,所以開(kāi)發(fā)者想要用GPT4的多模態(tài)能力來(lái)構(gòu)建AI Agent,還做不到,而缺失了圖像、音頻等其他模態(tài)的信息,AI Agent對(duì)環(huán)境的理解和效果還有待提升。
所以,無(wú)論是開(kāi)源模型,還是閉源模型,想要通過(guò)API經(jīng)濟(jì)來(lái)商業(yè)化,基礎(chǔ)模型的能力會(huì)直接關(guān)系到AI Agent的質(zhì)量,且都還有提升的空間。
2.數(shù)據(jù)知識(shí)。
想要做好一個(gè)AI Agent,采集和使用數(shù)據(jù)是基本前提。對(duì)于開(kāi)發(fā)者來(lái)說(shuō),數(shù)字任務(wù)的數(shù)據(jù)量已經(jīng)不成問(wèn)題,但開(kāi)發(fā)物理世界的AI Agent,數(shù)據(jù)成本就非常高了。機(jī)器人的控制數(shù)據(jù),一般只能自己采集,通過(guò)模擬器或者實(shí)體機(jī)器人現(xiàn)場(chǎng)采集。但模擬器畢竟不是真實(shí)的環(huán)境,訓(xùn)練的效果不一定好,而購(gòu)買(mǎi)幾百臺(tái)機(jī)器人、無(wú)人機(jī)真正上路進(jìn)廠去收集數(shù)據(jù),無(wú)論是采購(gòu)成本、政策限制、實(shí)際執(zhí)行等,都有不小的困難。
這一點(diǎn)上,擁有數(shù)據(jù)優(yōu)勢(shì)的大模型廠商,比如谷歌、百度的自動(dòng)駕駛優(yōu)勢(shì),微軟、谷歌、搜狗、百度等搜索業(yè)務(wù)的數(shù)據(jù)優(yōu)勢(shì),或許能夠?yàn)殚_(kāi)發(fā)者的AI Agents探索減少一些門(mén)檻,也會(huì)為這些廠商的大模型建立壁壘。
3.產(chǎn)品支持。
必須承認(rèn),AI Agent所代表的大模型應(yīng)用機(jī)會(huì),還只是非常早期,技術(shù)上尚未完全成熟,商業(yè)化探索更是剛剛邁出了一點(diǎn)點(diǎn)步伐。對(duì)于開(kāi)發(fā)者、軟件服務(wù)商等來(lái)說(shuō),比起代碼上怎么實(shí)現(xiàn)AI Agent,更關(guān)鍵也更早一步要考慮的,是想象一個(gè)AI Agent所應(yīng)該的去向:
它應(yīng)該是什么樣子?叫什么名字?有性別嗎?以什么性格跟用戶對(duì)話?有哪些用例?會(huì)遇到哪些具體的困難?如何評(píng)價(jià)一個(gè)AI Agent的成功?
這些更多是產(chǎn)品層面、商業(yè)層面的“無(wú)人區(qū)”,要讓開(kāi)發(fā)者釋放想象力,在各種環(huán)境和任務(wù)中嘗試創(chuàng)建AI Agents,需要大模型廠商開(kāi)放自身的商業(yè)生態(tài)和更豐富便捷的功能,來(lái)減少開(kāi)發(fā)人員的試錯(cuò)風(fēng)險(xiǎn),增加與商業(yè)用戶對(duì)接的強(qiáng)度,去催生更多商業(yè)選擇和落地案例。
總而言之,這個(gè)領(lǐng)域仍然很新,目前AI Agent還沒(méi)有明確給大模型產(chǎn)業(yè)帶來(lái)沖擊,但AI Agent會(huì)消除人與AI系統(tǒng)的大量繁瑣交互已經(jīng)板上釘釘,正在發(fā)生。
更多AI Agents在被推向社區(qū)、推向用戶,它們學(xué)習(xí),它們改變,它們進(jìn)化。或許幾個(gè)月之后,我們就會(huì)看到AI Agents的成熟和爆發(fā),這必然會(huì)引發(fā)大模型領(lǐng)域的又一次洗牌。