正在閱讀:

AI大模型,AI賽道一場(chǎng)不能輸?shù)摹扳n”能力競(jìng)賽?

掃一掃下載界面新聞APP

AI大模型,AI賽道一場(chǎng)不能輸?shù)摹扳n”能力競(jìng)賽?

AI比拼“鈔”能力。

文|偲睿洞察 蔡凡

從2020年開(kāi)始,國(guó)際最頂尖的AI技術(shù)發(fā)展,愈來(lái)愈像一場(chǎng)比拼資金與人才的軍備競(jìng)賽。

2020年,OpenAI發(fā)布NLP預(yù)訓(xùn)練模型GPT-3,光論文就有72頁(yè),作者多達(dá)31人,該模型參數(shù)1750億,耗資1200萬(wàn)美元;

2021年1月,谷歌發(fā)布首個(gè)萬(wàn)億級(jí)模型Switch Transformer,宣布突破了GPT-3參數(shù)記錄;

4月,華為盤古大模型參數(shù)規(guī)模達(dá)到千億級(jí)別,定位于中文語(yǔ)言預(yù)訓(xùn)練模型;

11月,微軟和英偉達(dá)在燒壞了4480塊CPU后,完成了5300億參數(shù)的自然語(yǔ)言生成模型(MT-NLG),一舉拿下單體Transformer語(yǔ)言模型界「最大」和「最強(qiáng)」兩個(gè)稱號(hào);

今年1月,Meta宣布要與英偉達(dá)打造AI超級(jí)計(jì)算機(jī)RSC,RSC每秒運(yùn)算可達(dá)50億次,算力可以排到全球前四的水平。

除此之外,阿里、浪潮、北京智源研究院等,均發(fā)布了最新產(chǎn)品,平均參數(shù)過(guò)百億。

看起來(lái),這些預(yù)訓(xùn)練模型的參數(shù)規(guī)模沒(méi)有最大,只有更大,且正以遠(yuǎn)超摩爾定律的速度增長(zhǎng)。其在對(duì)話、語(yǔ)義識(shí)別方面的表現(xiàn),一次次刷新人們的認(rèn)知。

本文,我們?cè)噲D回答三個(gè)問(wèn)題:

1. AI大模型,越大越好嗎?

2. 大模型的技術(shù)瓶頸在哪里?

3. 它是實(shí)現(xiàn)強(qiáng)人工智能的希望嗎?

01 大力出奇跡

人工智能的上一個(gè)里程碑出現(xiàn)在2020年。

這一年,由OpenAI公司開(kāi)發(fā)的GPT-3橫空出世,獲得了“互聯(lián)網(wǎng)原子彈”,“人工智能界的卡麗熙”,“算力吞噬者”,“下崗工人制造機(jī)”,“幼年期的天網(wǎng)”等一系列外號(hào)。它的驚艷表現(xiàn)包括但不限于:

有開(kāi)發(fā)者給GPT-3 做了圖靈測(cè)試,發(fā)現(xiàn)GPT-3對(duì)答如流,正常得不像個(gè)機(jī)器?!叭绻谑昵坝猛瑯拥膯?wèn)題做測(cè)試,我會(huì)認(rèn)為答題者一定是人?,F(xiàn)在,我們不能再以為AI回答不了常識(shí)性的問(wèn)題了?!?/p>

藝術(shù)家和程序員 Mario Klingemann,想讓 GPT-3寫(xiě)一篇論述“上Twitter重要性”的短文。他的輸入條件是 1)題目:“上 Twitter 的重要性”;2)作者姓名:"Jerome K. Jerome" 3)文章開(kāi)頭的第一個(gè)字 "It"。

GPT-3不僅行文流暢,更是在字里行間暗諷,Twitter是一種所有人都在使用的、充斥著人身攻擊的社交軟件。

更高級(jí)的玩法是,開(kāi)發(fā)者在GPT-3上快速開(kāi)發(fā)出了許多應(yīng)用,例如設(shè)計(jì)軟件、會(huì)計(jì)軟件、翻譯軟件等。

從詩(shī)詞劇本,到說(shuō)明書(shū)、新聞稿,再到開(kāi)發(fā)應(yīng)用程序,GPT-3似乎都能勝任。

為什么相較于以往的AI模型,GPT-3表現(xiàn)得如此脫俗?答案無(wú)他,“大力出奇跡”。

1750億參數(shù)、訓(xùn)練成本超過(guò)1200萬(wàn)美元、論文長(zhǎng)達(dá) 72 頁(yè),作者多達(dá) 31 人,就連使用的計(jì)算也是算力排名全球前五的“超級(jí)計(jì)算機(jī)”,擁有超過(guò) 285000個(gè)CPU,10000個(gè)GPU和每秒400G網(wǎng)絡(luò)。

“壕無(wú)人性”的結(jié)果,創(chuàng)造出兩個(gè)里程碑意義:

首先,它本身的存在,驗(yàn)證了參數(shù)增長(zhǎng)、訓(xùn)練數(shù)據(jù)量增大,對(duì)AI模型的重要意義,“煉大模型”,的確能讓AI取得突破性效果;

其次,它使用了小樣本學(xué)習(xí)(Few-shot Learning)方法,令預(yù)訓(xùn)練模型在不必使用大量標(biāo)記的訓(xùn)練數(shù)據(jù),并持續(xù)微調(diào)的情況下,僅僅只要給出任務(wù)描述,并給出幾個(gè)從輸入到輸出示例,便能自動(dòng)執(zhí)行人物。這意味著,它將突破AI碎片化難題,讓后續(xù)開(kāi)發(fā)者得以在巨人肩膀上發(fā)展,而不用針對(duì)一個(gè)個(gè)場(chǎng)景“平地起高樓”。

GPT-3之后,AI大模型軍備賽才真正加速打響。一年之內(nèi),有頭有臉的巨頭爭(zhēng)相拿出了成績(jī),秀組足肌肉。國(guó)外有谷歌、微軟、Meta等巨頭,國(guó)外如華為、阿里、浪潮等企業(yè)均下場(chǎng)參戰(zhàn),模型平均參數(shù)上百億。

從規(guī)模上看,巨頭的模型一個(gè)比一個(gè)厲害,突破競(jìng)速賽好不熱鬧。不過(guò)“內(nèi)里”有差別,不同模型參數(shù)無(wú)法簡(jiǎn)單對(duì)比。

例如,谷歌Switch Transformer,采用了“Mixture of experts”(多專家模型),把數(shù)據(jù)并行、模型并行、expert并行三者結(jié)合在一起,實(shí)現(xiàn)了某種意義上的“偷工減料”——增大模型參數(shù)量,但不增大計(jì)算量。不過(guò),降低計(jì)算量后的效果有無(wú)損失,谷歌論文中沒(méi)有過(guò)多正面提及。

再例如,浪潮發(fā)布的“源1.0”,參數(shù)規(guī)模2457億,采用了5000GB中文數(shù)據(jù)集,是一個(gè)創(chuàng)作能力、學(xué)習(xí)能力兼優(yōu)的中文AI大模型。據(jù)開(kāi)發(fā)者介紹,由于中文特殊的語(yǔ)言特點(diǎn),會(huì)為開(kāi)發(fā)者帶來(lái)英文訓(xùn)練中不會(huì)遇到的困難。這意味著,想要做出和GPT-3同樣效果的中文語(yǔ)言模型,無(wú)論是大模型本身,還是開(kāi)發(fā)者,都需要付出更大的力氣。

不同模型各有側(cè)重點(diǎn),但秀肌肉的意圖是通用的——做大模型,大力出奇跡。

02 瓶頸在哪里?

在斯坦福大學(xué)眾多學(xué)者聯(lián)合撰寫(xiě)的文章《On the Opportunities and Risks of Foundation Models》中,作者們一針見(jiàn)血地指出了以GPT-3、Switch Transformer、源1.0代表的AI基礎(chǔ)模型的兩大意義,也是風(fēng)險(xiǎn)所在:同質(zhì)化與涌現(xiàn)。

所謂同質(zhì)化,是指目前幾乎所有最先進(jìn)的NLP模型,都源自少數(shù)基礎(chǔ)模型之一,例如GPT、BERT、RoBERTa、BART等,它們成了NLP的“底座”。

論文指出,雖然基礎(chǔ)模型的任何改進(jìn)可以為所有NLP任務(wù)帶來(lái)直接改善,但其缺陷也會(huì)為所有任務(wù)繼承。所有人工智能系統(tǒng)都可能繼承一些基礎(chǔ)模型相同的錯(cuò)誤偏誤。

所謂“涌現(xiàn)”,指的是在巨量化的AI模型中,只需給模型提供提示,就可以讓其自動(dòng)執(zhí)行任務(wù)。這種提示既沒(méi)有經(jīng)過(guò)專門訓(xùn)練,也不被期望在數(shù)據(jù)中出現(xiàn),其屬性即為“涌現(xiàn)”。

涌現(xiàn)意味著系統(tǒng)的行為是隱式歸納而不是顯式構(gòu)造的,故令基礎(chǔ)模型顯得更難以理解,并具有難以預(yù)料的錯(cuò)誤模式。

總而言之,體現(xiàn)在效果上,以GPT-3為例,“同質(zhì)化”與“涌現(xiàn)”的風(fēng)險(xiǎn)已經(jīng)顯現(xiàn)。

例如,一位來(lái)自Kevin Lacker的網(wǎng)友在與GPT-3對(duì)話中,發(fā)現(xiàn)其在對(duì)比事物的重量、計(jì)數(shù)方面缺乏基本常識(shí)和邏輯。

難以預(yù)料的錯(cuò)誤還包括嚴(yán)重的“系統(tǒng)偏見(jiàn)”。Facebook人工智能主管Jerome Pesenti在要求GPT-3討論猶太人、黑人、婦女等話題時(shí),系統(tǒng)產(chǎn)生了許多涉及性別歧視、種族歧視的“危險(xiǎn)”言論。

有病人對(duì)GPT-3表示自己感覺(jué)很糟糕,“我應(yīng)該自殺嗎”,GPT-3回答:“我認(rèn)為你應(yīng)該這么做?!?/p>

類似的案例還有很多,也許正如波特蘭州立大學(xué)計(jì)算機(jī)科學(xué)教授 Melanie Mitchell所認(rèn)為的,GPT-3具有“令人印象深刻、看似智能的性能和非人類的錯(cuò)誤?!?/p>

然而,由于訓(xùn)練成本過(guò)于昂貴,模型修正并不容易。在GPT-3研究過(guò)程中,研究人員就承認(rèn):“不幸的是,過(guò)濾中的一個(gè)bug導(dǎo)致我們忽略了一些(訓(xùn)練集與測(cè)試集的)重疊,由于訓(xùn)練的成本的原因,重新訓(xùn)練模型是不可行的。”

模型最大的意義,反過(guò)來(lái)成了約束其發(fā)展的瓶頸所在,對(duì)于這些問(wèn)題,業(yè)內(nèi)尚沒(méi)有特別有效的解決方案。

03 AI大模型能帶來(lái)強(qiáng)人工智能嗎?

在無(wú)數(shù)科幻片中,機(jī)器人擁有了人一樣的智能,甚至最終統(tǒng)治人類。這類機(jī)器人遠(yuǎn)遠(yuǎn)超越了普通AI層面,實(shí)現(xiàn)了AGI(通用人工智能),即擁有人一樣的智能,可以像人一樣學(xué)習(xí)、思考、解決問(wèn)題。

蘋(píng)果聯(lián)合創(chuàng)始人史蒂夫·沃茲尼亞克為AGI提出了一種特殊測(cè)試方案——“咖啡測(cè)試”。將機(jī)器帶到普通的家庭中,讓它在沒(méi)有任何特定的程序幫助下,進(jìn)入房間并煮好咖啡。它需要主動(dòng)尋找所需物品,明確功能和使用方法,像人類一樣,操作咖啡機(jī),沖泡好飲品。能夠做到這一點(diǎn)的機(jī)器,即通過(guò)了“AGI測(cè)試”。

相比之下,普通AI機(jī)器,只能完成物品識(shí)別、劑量確認(rèn)等單個(gè)、簡(jiǎn)單的任務(wù),而不具備舉一反三、推理能力。

對(duì)于AGI,業(yè)內(nèi)出現(xiàn)了嚴(yán)重分歧。一派以O(shè)penAI為首,篤信AGI是未來(lái),不惜花下血本,一派如Meta,對(duì)AGI概念并不感冒。

OpenAI認(rèn)為,強(qiáng)大計(jì)算能力是邁向 AGI 的必經(jīng)之路,也是 AI 能夠?qū)W習(xí)人類所能完成的任何任務(wù)的必經(jīng)之路。

其研究表明,2012至2018年6年間,在最大規(guī)模的人工智能模型訓(xùn)練中所使用的計(jì)算量呈指數(shù)級(jí)增長(zhǎng),其中有3.5個(gè)月的時(shí)間計(jì)算量翻了一倍,比摩爾定律每18個(gè)月翻一倍的速度快得多。

在強(qiáng)大計(jì)算力的加持之下,OpenAI模型也得以越煉越大。據(jù)透露,GPT-4的尺寸將超過(guò)GPT-3的500倍,將擁有100萬(wàn)億個(gè)參數(shù)。相比之下,人類大腦有大約 80-1000 億個(gè)神經(jīng)元和大約 100 萬(wàn)億個(gè)突觸,也就是說(shuō),下一代AI大模型,參數(shù)數(shù)量級(jí)將堪比人類大腦突觸的水平。

OpenAI 的首席科學(xué)家 Ilya Sutskever在2020年表示,“到2021年,語(yǔ)言模型將開(kāi)始了解視覺(jué)世界。僅文字就可以表達(dá)關(guān)于世界的大量信息,但它是不完整的,因?yàn)槲覀円采钤谝曈X(jué)世界中?!?/p>

這也許是下一代AI大模型最大的看點(diǎn)所在——其將不僅能處理語(yǔ)言模型,大概率將更是一個(gè)能處理語(yǔ)言、視覺(jué)、聲音等多任務(wù)的多模態(tài)AI模型。

而這也意味著,AI大模型距離能夠多任務(wù)處理、會(huì)思考的通用人工智能更近了一步。

與OpenAI相反,Meta人工智能副總裁羅姆 佩森蒂,掌管著數(shù)百名科學(xué)家和工程師的資深高管,自始至終對(duì)AGI不感興趣。他認(rèn)為,人類的智力本身就不是一個(gè)統(tǒng)一的問(wèn)題,更不會(huì)有真正的模型能靠自己不斷進(jìn)化智力?!凹幢闶侨祟惗疾荒茏屪约鹤兊酶斆?。我認(rèn)為人們對(duì) AGI 的追捧有點(diǎn)像是對(duì)某種議程的追捧?!?/p>

反對(duì)者可以找到更多的佐證理由。2010年,DeepMind創(chuàng)始人德米斯·哈薩比斯提出了兩種接近AGI的方向:

一是通過(guò)描述和編程體系模仿人類大腦的思考體系,但操作難度太大,沒(méi)有人能描述清楚人腦的結(jié)構(gòu);

二是以數(shù)字形式復(fù)制大腦物理網(wǎng)絡(luò)結(jié)構(gòu),但即便是還原大腦物理功能,也無(wú)法解釋人類思考的運(yùn)轉(zhuǎn)規(guī)則。

不管是效仿大腦結(jié)構(gòu),還是試圖描述清楚人類智慧的原理,都邁不過(guò)“因果關(guān)系推理”的鴻溝。迄今為止,沒(méi)有一個(gè)AI模型突破這一難題。

AI大模型能帶來(lái)強(qiáng)人工智能嗎?當(dāng)模型參數(shù)一次次被突破,達(dá)到遠(yuǎn)超人腦突觸的數(shù)量級(jí)時(shí),也許會(huì)出現(xiàn)突破“因果關(guān)系推理”難題的“奇點(diǎn)”,帶領(lǐng)我們進(jìn)入強(qiáng)人工智能時(shí)代,但也許這僅僅是一個(gè)幻想。

不過(guò)目前,看起來(lái),AI大模型是通往強(qiáng)人工智能最有可能的一條通道。賭一次,值了。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI大模型,AI賽道一場(chǎng)不能輸?shù)摹扳n”能力競(jìng)賽?

AI比拼“鈔”能力。

文|偲睿洞察 蔡凡

從2020年開(kāi)始,國(guó)際最頂尖的AI技術(shù)發(fā)展,愈來(lái)愈像一場(chǎng)比拼資金與人才的軍備競(jìng)賽。

2020年,OpenAI發(fā)布NLP預(yù)訓(xùn)練模型GPT-3,光論文就有72頁(yè),作者多達(dá)31人,該模型參數(shù)1750億,耗資1200萬(wàn)美元;

2021年1月,谷歌發(fā)布首個(gè)萬(wàn)億級(jí)模型Switch Transformer,宣布突破了GPT-3參數(shù)記錄;

4月,華為盤古大模型參數(shù)規(guī)模達(dá)到千億級(jí)別,定位于中文語(yǔ)言預(yù)訓(xùn)練模型;

11月,微軟和英偉達(dá)在燒壞了4480塊CPU后,完成了5300億參數(shù)的自然語(yǔ)言生成模型(MT-NLG),一舉拿下單體Transformer語(yǔ)言模型界「最大」和「最強(qiáng)」兩個(gè)稱號(hào);

今年1月,Meta宣布要與英偉達(dá)打造AI超級(jí)計(jì)算機(jī)RSC,RSC每秒運(yùn)算可達(dá)50億次,算力可以排到全球前四的水平。

除此之外,阿里、浪潮、北京智源研究院等,均發(fā)布了最新產(chǎn)品,平均參數(shù)過(guò)百億。

看起來(lái),這些預(yù)訓(xùn)練模型的參數(shù)規(guī)模沒(méi)有最大,只有更大,且正以遠(yuǎn)超摩爾定律的速度增長(zhǎng)。其在對(duì)話、語(yǔ)義識(shí)別方面的表現(xiàn),一次次刷新人們的認(rèn)知。

本文,我們?cè)噲D回答三個(gè)問(wèn)題:

1. AI大模型,越大越好嗎?

2. 大模型的技術(shù)瓶頸在哪里?

3. 它是實(shí)現(xiàn)強(qiáng)人工智能的希望嗎?

01 大力出奇跡

人工智能的上一個(gè)里程碑出現(xiàn)在2020年。

這一年,由OpenAI公司開(kāi)發(fā)的GPT-3橫空出世,獲得了“互聯(lián)網(wǎng)原子彈”,“人工智能界的卡麗熙”,“算力吞噬者”,“下崗工人制造機(jī)”,“幼年期的天網(wǎng)”等一系列外號(hào)。它的驚艷表現(xiàn)包括但不限于:

有開(kāi)發(fā)者給GPT-3 做了圖靈測(cè)試,發(fā)現(xiàn)GPT-3對(duì)答如流,正常得不像個(gè)機(jī)器?!叭绻谑昵坝猛瑯拥膯?wèn)題做測(cè)試,我會(huì)認(rèn)為答題者一定是人?,F(xiàn)在,我們不能再以為AI回答不了常識(shí)性的問(wèn)題了?!?/p>

藝術(shù)家和程序員 Mario Klingemann,想讓 GPT-3寫(xiě)一篇論述“上Twitter重要性”的短文。他的輸入條件是 1)題目:“上 Twitter 的重要性”;2)作者姓名:"Jerome K. Jerome" 3)文章開(kāi)頭的第一個(gè)字 "It"。

GPT-3不僅行文流暢,更是在字里行間暗諷,Twitter是一種所有人都在使用的、充斥著人身攻擊的社交軟件。

更高級(jí)的玩法是,開(kāi)發(fā)者在GPT-3上快速開(kāi)發(fā)出了許多應(yīng)用,例如設(shè)計(jì)軟件、會(huì)計(jì)軟件、翻譯軟件等。

從詩(shī)詞劇本,到說(shuō)明書(shū)、新聞稿,再到開(kāi)發(fā)應(yīng)用程序,GPT-3似乎都能勝任。

為什么相較于以往的AI模型,GPT-3表現(xiàn)得如此脫俗?答案無(wú)他,“大力出奇跡”。

1750億參數(shù)、訓(xùn)練成本超過(guò)1200萬(wàn)美元、論文長(zhǎng)達(dá) 72 頁(yè),作者多達(dá) 31 人,就連使用的計(jì)算也是算力排名全球前五的“超級(jí)計(jì)算機(jī)”,擁有超過(guò) 285000個(gè)CPU,10000個(gè)GPU和每秒400G網(wǎng)絡(luò)。

“壕無(wú)人性”的結(jié)果,創(chuàng)造出兩個(gè)里程碑意義:

首先,它本身的存在,驗(yàn)證了參數(shù)增長(zhǎng)、訓(xùn)練數(shù)據(jù)量增大,對(duì)AI模型的重要意義,“煉大模型”,的確能讓AI取得突破性效果;

其次,它使用了小樣本學(xué)習(xí)(Few-shot Learning)方法,令預(yù)訓(xùn)練模型在不必使用大量標(biāo)記的訓(xùn)練數(shù)據(jù),并持續(xù)微調(diào)的情況下,僅僅只要給出任務(wù)描述,并給出幾個(gè)從輸入到輸出示例,便能自動(dòng)執(zhí)行人物。這意味著,它將突破AI碎片化難題,讓后續(xù)開(kāi)發(fā)者得以在巨人肩膀上發(fā)展,而不用針對(duì)一個(gè)個(gè)場(chǎng)景“平地起高樓”。

GPT-3之后,AI大模型軍備賽才真正加速打響。一年之內(nèi),有頭有臉的巨頭爭(zhēng)相拿出了成績(jī),秀組足肌肉。國(guó)外有谷歌、微軟、Meta等巨頭,國(guó)外如華為、阿里、浪潮等企業(yè)均下場(chǎng)參戰(zhàn),模型平均參數(shù)上百億。

從規(guī)模上看,巨頭的模型一個(gè)比一個(gè)厲害,突破競(jìng)速賽好不熱鬧。不過(guò)“內(nèi)里”有差別,不同模型參數(shù)無(wú)法簡(jiǎn)單對(duì)比。

例如,谷歌Switch Transformer,采用了“Mixture of experts”(多專家模型),把數(shù)據(jù)并行、模型并行、expert并行三者結(jié)合在一起,實(shí)現(xiàn)了某種意義上的“偷工減料”——增大模型參數(shù)量,但不增大計(jì)算量。不過(guò),降低計(jì)算量后的效果有無(wú)損失,谷歌論文中沒(méi)有過(guò)多正面提及。

再例如,浪潮發(fā)布的“源1.0”,參數(shù)規(guī)模2457億,采用了5000GB中文數(shù)據(jù)集,是一個(gè)創(chuàng)作能力、學(xué)習(xí)能力兼優(yōu)的中文AI大模型。據(jù)開(kāi)發(fā)者介紹,由于中文特殊的語(yǔ)言特點(diǎn),會(huì)為開(kāi)發(fā)者帶來(lái)英文訓(xùn)練中不會(huì)遇到的困難。這意味著,想要做出和GPT-3同樣效果的中文語(yǔ)言模型,無(wú)論是大模型本身,還是開(kāi)發(fā)者,都需要付出更大的力氣。

不同模型各有側(cè)重點(diǎn),但秀肌肉的意圖是通用的——做大模型,大力出奇跡。

02 瓶頸在哪里?

在斯坦福大學(xué)眾多學(xué)者聯(lián)合撰寫(xiě)的文章《On the Opportunities and Risks of Foundation Models》中,作者們一針見(jiàn)血地指出了以GPT-3、Switch Transformer、源1.0代表的AI基礎(chǔ)模型的兩大意義,也是風(fēng)險(xiǎn)所在:同質(zhì)化與涌現(xiàn)。

所謂同質(zhì)化,是指目前幾乎所有最先進(jìn)的NLP模型,都源自少數(shù)基礎(chǔ)模型之一,例如GPT、BERT、RoBERTa、BART等,它們成了NLP的“底座”。

論文指出,雖然基礎(chǔ)模型的任何改進(jìn)可以為所有NLP任務(wù)帶來(lái)直接改善,但其缺陷也會(huì)為所有任務(wù)繼承。所有人工智能系統(tǒng)都可能繼承一些基礎(chǔ)模型相同的錯(cuò)誤偏誤。

所謂“涌現(xiàn)”,指的是在巨量化的AI模型中,只需給模型提供提示,就可以讓其自動(dòng)執(zhí)行任務(wù)。這種提示既沒(méi)有經(jīng)過(guò)專門訓(xùn)練,也不被期望在數(shù)據(jù)中出現(xiàn),其屬性即為“涌現(xiàn)”。

涌現(xiàn)意味著系統(tǒng)的行為是隱式歸納而不是顯式構(gòu)造的,故令基礎(chǔ)模型顯得更難以理解,并具有難以預(yù)料的錯(cuò)誤模式。

總而言之,體現(xiàn)在效果上,以GPT-3為例,“同質(zhì)化”與“涌現(xiàn)”的風(fēng)險(xiǎn)已經(jīng)顯現(xiàn)。

例如,一位來(lái)自Kevin Lacker的網(wǎng)友在與GPT-3對(duì)話中,發(fā)現(xiàn)其在對(duì)比事物的重量、計(jì)數(shù)方面缺乏基本常識(shí)和邏輯。

難以預(yù)料的錯(cuò)誤還包括嚴(yán)重的“系統(tǒng)偏見(jiàn)”。Facebook人工智能主管Jerome Pesenti在要求GPT-3討論猶太人、黑人、婦女等話題時(shí),系統(tǒng)產(chǎn)生了許多涉及性別歧視、種族歧視的“危險(xiǎn)”言論。

有病人對(duì)GPT-3表示自己感覺(jué)很糟糕,“我應(yīng)該自殺嗎”,GPT-3回答:“我認(rèn)為你應(yīng)該這么做?!?/p>

類似的案例還有很多,也許正如波特蘭州立大學(xué)計(jì)算機(jī)科學(xué)教授 Melanie Mitchell所認(rèn)為的,GPT-3具有“令人印象深刻、看似智能的性能和非人類的錯(cuò)誤?!?/p>

然而,由于訓(xùn)練成本過(guò)于昂貴,模型修正并不容易。在GPT-3研究過(guò)程中,研究人員就承認(rèn):“不幸的是,過(guò)濾中的一個(gè)bug導(dǎo)致我們忽略了一些(訓(xùn)練集與測(cè)試集的)重疊,由于訓(xùn)練的成本的原因,重新訓(xùn)練模型是不可行的?!?/p>

模型最大的意義,反過(guò)來(lái)成了約束其發(fā)展的瓶頸所在,對(duì)于這些問(wèn)題,業(yè)內(nèi)尚沒(méi)有特別有效的解決方案。

03 AI大模型能帶來(lái)強(qiáng)人工智能嗎?

在無(wú)數(shù)科幻片中,機(jī)器人擁有了人一樣的智能,甚至最終統(tǒng)治人類。這類機(jī)器人遠(yuǎn)遠(yuǎn)超越了普通AI層面,實(shí)現(xiàn)了AGI(通用人工智能),即擁有人一樣的智能,可以像人一樣學(xué)習(xí)、思考、解決問(wèn)題。

蘋(píng)果聯(lián)合創(chuàng)始人史蒂夫·沃茲尼亞克為AGI提出了一種特殊測(cè)試方案——“咖啡測(cè)試”。將機(jī)器帶到普通的家庭中,讓它在沒(méi)有任何特定的程序幫助下,進(jìn)入房間并煮好咖啡。它需要主動(dòng)尋找所需物品,明確功能和使用方法,像人類一樣,操作咖啡機(jī),沖泡好飲品。能夠做到這一點(diǎn)的機(jī)器,即通過(guò)了“AGI測(cè)試”。

相比之下,普通AI機(jī)器,只能完成物品識(shí)別、劑量確認(rèn)等單個(gè)、簡(jiǎn)單的任務(wù),而不具備舉一反三、推理能力。

對(duì)于AGI,業(yè)內(nèi)出現(xiàn)了嚴(yán)重分歧。一派以O(shè)penAI為首,篤信AGI是未來(lái),不惜花下血本,一派如Meta,對(duì)AGI概念并不感冒。

OpenAI認(rèn)為,強(qiáng)大計(jì)算能力是邁向 AGI 的必經(jīng)之路,也是 AI 能夠?qū)W習(xí)人類所能完成的任何任務(wù)的必經(jīng)之路。

其研究表明,2012至2018年6年間,在最大規(guī)模的人工智能模型訓(xùn)練中所使用的計(jì)算量呈指數(shù)級(jí)增長(zhǎng),其中有3.5個(gè)月的時(shí)間計(jì)算量翻了一倍,比摩爾定律每18個(gè)月翻一倍的速度快得多。

在強(qiáng)大計(jì)算力的加持之下,OpenAI模型也得以越煉越大。據(jù)透露,GPT-4的尺寸將超過(guò)GPT-3的500倍,將擁有100萬(wàn)億個(gè)參數(shù)。相比之下,人類大腦有大約 80-1000 億個(gè)神經(jīng)元和大約 100 萬(wàn)億個(gè)突觸,也就是說(shuō),下一代AI大模型,參數(shù)數(shù)量級(jí)將堪比人類大腦突觸的水平。

OpenAI 的首席科學(xué)家 Ilya Sutskever在2020年表示,“到2021年,語(yǔ)言模型將開(kāi)始了解視覺(jué)世界。僅文字就可以表達(dá)關(guān)于世界的大量信息,但它是不完整的,因?yàn)槲覀円采钤谝曈X(jué)世界中。”

這也許是下一代AI大模型最大的看點(diǎn)所在——其將不僅能處理語(yǔ)言模型,大概率將更是一個(gè)能處理語(yǔ)言、視覺(jué)、聲音等多任務(wù)的多模態(tài)AI模型。

而這也意味著,AI大模型距離能夠多任務(wù)處理、會(huì)思考的通用人工智能更近了一步。

與OpenAI相反,Meta人工智能副總裁羅姆 佩森蒂,掌管著數(shù)百名科學(xué)家和工程師的資深高管,自始至終對(duì)AGI不感興趣。他認(rèn)為,人類的智力本身就不是一個(gè)統(tǒng)一的問(wèn)題,更不會(huì)有真正的模型能靠自己不斷進(jìn)化智力?!凹幢闶侨祟惗疾荒茏屪约鹤兊酶斆?。我認(rèn)為人們對(duì) AGI 的追捧有點(diǎn)像是對(duì)某種議程的追捧?!?/p>

反對(duì)者可以找到更多的佐證理由。2010年,DeepMind創(chuàng)始人德米斯·哈薩比斯提出了兩種接近AGI的方向:

一是通過(guò)描述和編程體系模仿人類大腦的思考體系,但操作難度太大,沒(méi)有人能描述清楚人腦的結(jié)構(gòu);

二是以數(shù)字形式復(fù)制大腦物理網(wǎng)絡(luò)結(jié)構(gòu),但即便是還原大腦物理功能,也無(wú)法解釋人類思考的運(yùn)轉(zhuǎn)規(guī)則。

不管是效仿大腦結(jié)構(gòu),還是試圖描述清楚人類智慧的原理,都邁不過(guò)“因果關(guān)系推理”的鴻溝。迄今為止,沒(méi)有一個(gè)AI模型突破這一難題。

AI大模型能帶來(lái)強(qiáng)人工智能嗎?當(dāng)模型參數(shù)一次次被突破,達(dá)到遠(yuǎn)超人腦突觸的數(shù)量級(jí)時(shí),也許會(huì)出現(xiàn)突破“因果關(guān)系推理”難題的“奇點(diǎn)”,帶領(lǐng)我們進(jìn)入強(qiáng)人工智能時(shí)代,但也許這僅僅是一個(gè)幻想。

不過(guò)目前,看起來(lái),AI大模型是通往強(qiáng)人工智能最有可能的一條通道。賭一次,值了。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。