文|極智GeeTech
“未來的路不會比過去更筆直,更平坦,但是我并不恐懼,我眼前還閃動著道路前方野百合和野薔薇的影子?!?nbsp;
自1956年達(dá)特茅斯會議提出“人工智能”這一概念以來,實(shí)現(xiàn)人類水平的智能一直是人工智能領(lǐng)域的“圣杯”。去年上半年,有主流研究者提出,大語言模型已經(jīng)表現(xiàn)出“通用人工智能的火花”(sparks of AGI)。這似乎表明,AGI已經(jīng)從哲學(xué)猜想正在變成觸手可及的未來。
馬斯克在今年早些時(shí)候預(yù)測,AGI可能會在2026年投入使用。DeepMind聯(lián)合創(chuàng)始人、首席AGI科學(xué)家Shane Legg在一次訪談中認(rèn)為,2028年,人類有50%的概率開發(fā)出第一個(gè)AGI。近期,OpenAI CEO Sam Altman表示,AGI將在2025年實(shí)現(xiàn),通往AGI的道路已經(jīng)清晰可見。
然而,業(yè)界關(guān)于AGI的觀點(diǎn)眾說紛紜,有人視為洪水猛獸,有人視為又一次技術(shù)革命,這些引發(fā)了對AGI發(fā)展路徑的爭論。在此背景下,人們不禁要問:我們距離實(shí)現(xiàn)AGI究竟還有多遠(yuǎn)?
誰會是AGI的起點(diǎn)?
AGI(Artificial General Intelligence),即通用人工智能,其目標(biāo)是打造一個(gè)具備廣泛能力的“類人智能體”,能夠像人類一樣在不同領(lǐng)域中自主學(xué)習(xí)、推理和解決問題?;旧?,除了“自我意識”的生成,AGI就是人類對人工智能的終極夢想了。
一個(gè)完整的AGI需要具備三個(gè)基本特征:第一,必須能完成無限的任務(wù),而不是只能完成人定義的有限幾個(gè)任務(wù)。第二,要在場景中自主發(fā)現(xiàn)任務(wù),這是通常所說的要做到“眼里有活兒”。第三,要有自主的價(jià)值來驅(qū)動,而不是被動的被數(shù)據(jù)所驅(qū)動。
同時(shí),AGI還需要解決一些關(guān)鍵的技術(shù)問題,比如構(gòu)建智能體的認(rèn)知架構(gòu),讓智能體由價(jià)值驅(qū)動,在現(xiàn)實(shí)世界中進(jìn)行有效的行動,能夠與社會環(huán)境進(jìn)行互動,使智能體決策過程透明可解釋,以及建立和人類之間的信任關(guān)系等。
但如果比較AGI的三個(gè)特征,就會發(fā)現(xiàn)大模型還不符合AGI的要求。
首先,大模型在處理任務(wù)方面的能力有限,它們只能處理文本領(lǐng)域的任務(wù),無法與物理和社會環(huán)境進(jìn)行互動。這意味著像ChatGPT這樣的模型不能真正“理解”語言的含義,因?yàn)樗鼈儧]有身體來體驗(yàn)物理空間。
其次,大模型也不是自主的,它們需要人類來具體定義好每一個(gè)任務(wù),就像一只“鸚鵡”,只能模仿被訓(xùn)練過的話語。真正自主的智能應(yīng)該類似于“烏鴉智能”,能夠自主完成比現(xiàn)如今AI更加智能的任務(wù),當(dāng)下的人工智能系統(tǒng)還不具備這種潛能。
第三,雖然ChatGPT已經(jīng)在不同的文本數(shù)據(jù)語料庫上進(jìn)行了大規(guī)模訓(xùn)練,包括隱含人類價(jià)值觀的文本,但它并不具備理解人類價(jià)值或與人類價(jià)值保持一致的能力,即缺乏所謂的道德指南針。
但這并不妨礙科技巨頭對于大模型的推崇。以O(shè)penAI的ChatGPT、谷歌Gemini、Meta的Llama為代表的大模型,已經(jīng)在通用性上展示出了AGI的潛力。因?yàn)榇竽P鸵呀?jīng)能完成范圍相當(dāng)廣的各類任務(wù),而且表現(xiàn)出了像學(xué)習(xí)新技能這樣的“元認(rèn)知”能力,科技巨頭也都將大模型視為邁向AGI的關(guān)鍵一步。
相比大模型的“鸚鵡范式”,AGI是以“小數(shù)據(jù),大任務(wù)”為架構(gòu)的“烏鴉范式”,智能體表現(xiàn)為具有自主的智能,能夠自主感知、認(rèn)知、推理、學(xué)習(xí)和執(zhí)行,不依賴于大數(shù)據(jù),基于無標(biāo)注數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),并且智能系統(tǒng)低功耗。就像烏鴉喝水這一行為,看似簡單,卻屬于自主推理行為,是由價(jià)值與因果驅(qū)動的高級智能,也是人工智能的未來發(fā)展趨勢。
通往AGI的兩大技術(shù)流派
目前,在通往AGI的道路上,主要有兩個(gè)技術(shù)流派。
一個(gè)是以O(shè)penAI為代表的Transformer學(xué)派,通過大數(shù)據(jù)、大參數(shù)、大算力,以自回歸的方式走向AGI,今年初發(fā)布的Sora體現(xiàn)的涌現(xiàn)能力,就初步隱含著AGI的味道。
另一個(gè)是以Meta首席人工智能科學(xué)家Yann LeCun為代表的世界模型學(xué)派,這一學(xué)派認(rèn)為自回歸的Transformer是無法通往AGI。Yann LeCun認(rèn)為,人類和動物能夠通過觀察,簡單的交互,以及無監(jiān)督的方式學(xué)習(xí)世界知識,這蘊(yùn)含的潛在能力構(gòu)成了常識的基礎(chǔ),這種常識能夠讓人類在陌生的環(huán)境下完成任務(wù)。
在人工智能的發(fā)展歷程中,Transformer架構(gòu)無疑是一個(gè)劃時(shí)代的創(chuàng)新。它首次被介紹是在2017年的論文《Attention is All You Need》中,旨在解決自然語言處理任務(wù)中序列到序列轉(zhuǎn)換的問題。
Transformer架構(gòu)之所以能夠在短時(shí)間內(nèi)取得廣泛應(yīng)用,主要?dú)w功于其在語言理解和生成方面的顯著能力。模型通過自注意力機(jī)制學(xué)習(xí)文本中的復(fù)雜依賴關(guān)系,能夠生成連貫且富有邏輯性的文本,這在機(jī)器翻譯、文本摘要、對話系統(tǒng)等應(yīng)用中尤為突出。同時(shí),Transformer的設(shè)計(jì)支持并行計(jì)算,極大提高了訓(xùn)練效率,這使得處理大規(guī)模數(shù)據(jù)集成為可能。
盡管Transformer架構(gòu)在多個(gè)領(lǐng)域取得了成功,但其在理解復(fù)雜概念和常識推理方面的能力仍有限。這是因?yàn)槟P椭饕蕾囉趶臄?shù)據(jù)中學(xué)習(xí)模式,而非真正理解這些模式背后的邏輯和原因。這一點(diǎn)在嘗試實(shí)現(xiàn)真正的AGI時(shí)尤為突出,因?yàn)锳GI不僅要求在特定任務(wù)上表現(xiàn)出人類水平的智能,更要求能夠跨領(lǐng)域?qū)W習(xí)和適應(yīng)。
不同于Transformer架構(gòu)專注數(shù)據(jù)的模式識別和序列處理,Yann LeCun圍繞如何使機(jī)器能夠像人類和動物那樣理解和與世界互動,強(qiáng)調(diào)“常識”推理的重要性以及基于“世界模型”的預(yù)測和計(jì)劃能力,試圖通過內(nèi)部模擬來預(yù)測和理解環(huán)境的動態(tài)變化,進(jìn)而做出更為合理的決策。
世界模型的基本思想,源自于對人類和動物如何理解世界的觀察。我們的大腦能夠構(gòu)建內(nèi)部表示,模擬可能的未來場景,并基于這些模擬做出決策。借鑒這一機(jī)制,世界模型旨在為人工智能系統(tǒng)提供一個(gè)內(nèi)部環(huán)境的模擬,使其能夠預(yù)測外部世界的狀態(tài)變化,從而在不同情境下做出適應(yīng)性決策。
這個(gè)模型通過無監(jiān)督的方式從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),從而無需明確指示就能理解世界動態(tài)。該模型架構(gòu)由六個(gè)模塊組成,包括執(zhí)行控制的配置器、理解當(dāng)前狀態(tài)的感知模塊、預(yù)測的世界模型、決策的成本模塊、規(guī)劃行動的行動模塊,以及追蹤狀態(tài)和成本的短期記憶模塊。
在強(qiáng)化學(xué)習(xí)領(lǐng)域,世界模型已經(jīng)顯示出其強(qiáng)大的潛力。通過在模型中模擬環(huán)境,人工智能不僅可以在虛擬環(huán)境中“想象”執(zhí)行動作的后果,還能夠在實(shí)際執(zhí)行之前評估不同行動方案的效果,極大提高了學(xué)習(xí)效率和決策質(zhì)量。此外,在自主決策系統(tǒng),如自動駕駛汽車和機(jī)器人中,世界模型能夠幫助系統(tǒng)更好地預(yù)測和應(yīng)對可能的變化,提高了安全性和可靠性。
世界模型的最大優(yōu)勢在于其環(huán)境模擬與預(yù)測的能力,這種能力使得人工智能系統(tǒng)可以在進(jìn)行實(shí)際操作之前,通過內(nèi)部模擬來評估不同行為的后果,這在資源有限或風(fēng)險(xiǎn)較高的情境下尤為重要。世界模型還支持決策支持和規(guī)劃能力的提升,允許系統(tǒng)在多個(gè)可能的未來中“看到”并選擇最優(yōu)路徑。
然而,世界模型的構(gòu)建和應(yīng)用也面臨著顯著的挑戰(zhàn)。首先,環(huán)境模擬的準(zhǔn)確性極大地依賴于模型的復(fù)雜度和所擁有的數(shù)據(jù)質(zhì)量。要精確地預(yù)測復(fù)雜環(huán)境中的動態(tài)變化,需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算資源,這對于資源有限的項(xiàng)目來說可能是一個(gè)限制。
其次,構(gòu)建一個(gè)能夠泛化到多種不同環(huán)境的世界模型是極具挑戰(zhàn)性的,因?yàn)楝F(xiàn)實(shí)世界的復(fù)雜性和不可預(yù)測性遠(yuǎn)遠(yuǎn)超出了任何現(xiàn)有模型的處理能力。
盡管世界模型在理論上具有巨大潛力,但在實(shí)際應(yīng)用中仍然存在許多未知數(shù)。例如,如何確保模型的預(yù)測準(zhǔn)確性,如何處理模型可能的偏差,以及如何在不同的應(yīng)用場景中調(diào)整模型參數(shù)以適應(yīng)特定的需求等問題都需要進(jìn)一步的研究和探索。
越競爭,越融合
在探索AGI的道路上,Transformer架構(gòu)和世界模型代表了人工智能研究中兩種截然不同的設(shè)計(jì)哲學(xué)和目標(biāo)。這兩種方法在理解復(fù)雜系統(tǒng)、處理未知環(huán)境、以及學(xué)習(xí)效率方面各有優(yōu)劣,引發(fā)了關(guān)于哪一種更接近于實(shí)現(xiàn)AGI的熱烈討論。
前文提到,Transformer架構(gòu)以自注意力機(jī)制為核心,它的設(shè)計(jì)哲學(xué)基于對數(shù)據(jù)之間關(guān)系的深入理解,特別適合處理序列化信息,如文本和語言,這使得Transformer在自然語言處理NLP等領(lǐng)域大放異彩。
相比之下,世界模型更側(cè)重于模擬和預(yù)測環(huán)境的動態(tài)變化,試圖通過構(gòu)建內(nèi)部模型來理解外部世界,從而在各種情境下做出適應(yīng)性決策。這種方法類似于人類和動物如何通過內(nèi)部表示來預(yù)測和規(guī)劃行為,因此被認(rèn)為在實(shí)現(xiàn)AGI方面具有潛在優(yōu)勢。
從理解復(fù)雜系統(tǒng)與處理未知環(huán)境的能力來看,Transformer架構(gòu)通過分析大規(guī)模數(shù)據(jù)集來理解復(fù)雜系統(tǒng),優(yōu)勢在于其能夠捕捉深層次的模式和關(guān)系。然而,當(dāng)面對未知環(huán)境或數(shù)據(jù)稀缺的情境時(shí),它的表現(xiàn)可能會受限,因?yàn)門ransformer依賴于已有數(shù)據(jù)中的模式進(jìn)行學(xué)習(xí)。
世界模型通過模擬可能的環(huán)境狀態(tài)來理解復(fù)雜系統(tǒng),特別是在處理未知環(huán)境時(shí)展現(xiàn)出其獨(dú)特的優(yōu)勢。通過內(nèi)部模擬,它能夠“想象”不同的未來情境,即使是那些從未直接經(jīng)歷過的。這種能力使得世界模型在策略規(guī)劃和決策支持方面具有顯著的潛力。
在學(xué)習(xí)效率方面,Transformer架構(gòu)能夠快速從大量數(shù)據(jù)中學(xué)習(xí),尤其是在有足夠計(jì)算資源的情況下。然而,這種方法可能導(dǎo)致資源使用效率低下,特別是在需要處理非常大的數(shù)據(jù)集時(shí)。
世界模型在學(xué)習(xí)效率方面的優(yōu)勢在于其能夠通過少量的實(shí)際交互進(jìn)行有效學(xué)習(xí)。通過在內(nèi)部模型中“實(shí)驗(yàn)”不同的行動策略,世界模型能夠在不直接與環(huán)境互動的情況下優(yōu)化決策,從而降低了學(xué)習(xí)過程中對實(shí)際數(shù)據(jù)的依賴。
在追求AGI的道路上,Transformer架構(gòu)和世界模型各有所長,代表了人工智能技術(shù)發(fā)展的兩條不同路徑。雖然每種方法都有其獨(dú)特的優(yōu)勢和局限,但未來AGI的實(shí)現(xiàn)可能不會完全依賴于單一技術(shù)或方法。相反,結(jié)合這兩種架構(gòu)的優(yōu)點(diǎn),甚至探索新的技術(shù)和理論,將是實(shí)現(xiàn)真正智能、靈活且適應(yīng)性強(qiáng)的AGI系統(tǒng)的關(guān)鍵。
例如,利用Transformer架構(gòu)的強(qiáng)大語言處理能力來增強(qiáng)世界模型內(nèi)部的環(huán)境模擬能力,或者在世界模型的框架下集成Transformer模塊來提高模型對環(huán)境變化的理解深度。這種融合可能會帶來新的挑戰(zhàn),比如如何平衡兩種架構(gòu)的計(jì)算需求,以及如何整合它們各自的學(xué)習(xí)機(jī)制。
除了結(jié)合現(xiàn)有架構(gòu),實(shí)現(xiàn)AGI還需要探索新的技術(shù)和理論,這包括發(fā)展新的神經(jīng)網(wǎng)絡(luò)架構(gòu)、深入研究大腦和認(rèn)知科學(xué)以獲取靈感,或者開發(fā)能夠跨領(lǐng)域?qū)W習(xí)和適應(yīng)的算法,這些新的探索將跨越學(xué)科界限,整合來自神經(jīng)科學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域的知識,既是人類智慧的集大成者,同時(shí)又挑戰(zhàn)著人類智慧的上限。
如今,我們正處在通向AGI未來的起點(diǎn)上,盡管實(shí)現(xiàn)它的時(shí)間表尚不明確,但技術(shù)道路正逐漸清晰。AGI的進(jìn)步不僅代表了技術(shù)創(chuàng)新,更是對未來人機(jī)交互方式的重新想象。兩千多年前,蘇格拉底說“認(rèn)識你自己”,今天在AGI技術(shù)發(fā)展的倒逼下,人類需要“重新認(rèn)識你自己”。