文|創(chuàng)瞰巴黎 Pablo Andres
編輯|Meister Xia
導(dǎo)讀
人工智能的發(fā)展日新月異,生成型AI是其中的一種,它能夠根據(jù)輸入的指示,創(chuàng)造出各種文字、圖像或聲音的內(nèi)容。這種技術(shù)有什么原理?它有哪些應(yīng)用和局限?它又會(huì)帶來(lái)哪些挑戰(zhàn)和風(fēng)險(xiǎn)?本文將為您介紹生成型AI的基本概念、最新進(jìn)展和未來(lái)趨勢(shì),讓您了解這個(gè)正在改變我們社會(huì)的創(chuàng)新領(lǐng)域。
一覽:
- 生成式AI,指能夠?qū)W習(xí)數(shù)據(jù)庫(kù)中的信息,并以此為基礎(chǔ),根據(jù)用戶輸入的提示生成文字、圖像或音頻的人工智能。
- 生成式AI仍處于蹣跚學(xué)步的階段,有許多需要改進(jìn)的地方,比如答案不夠可靠或帶有偏見(jiàn)。
- ChatGPT、Bloom都屬于生成式AI的應(yīng)用模型。潛在的應(yīng)用還有千千萬(wàn)萬(wàn)待探索。
- 任何技術(shù)有利必有弊。生成式AI耗能極高,而且存在被濫用的風(fēng)險(xiǎn)。
ChatGPT已經(jīng)成為了當(dāng)今社會(huì)的熱議話題,新一輪AI技術(shù)革命已初露端倪。生成式AI有看似無(wú)窮的潛在應(yīng)用場(chǎng)景,也毫不意外地引發(fā)了無(wú)休止的爭(zhēng)論。不過(guò),大眾對(duì)于生成式AI 原理的理解似乎還有待加深。
生成式AI,指能夠?qū)W習(xí)數(shù)據(jù)庫(kù)中的信息,并以此為基礎(chǔ),根據(jù)用戶輸入的提示生成文字、圖像或音頻的人工智能。巴黎綜合理工大學(xué)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)教授Eric Moulines解釋說(shuō):“AI在學(xué)習(xí)的過(guò)程中,會(huì)從數(shù)據(jù)中概括規(guī)律,并基于此生成具有原創(chuàng)性的內(nèi)容?!?/p>
目前兩種主流的人工智能模型分別是GPT(生成式預(yù)訓(xùn)練轉(zhuǎn)換器)和擴(kuò)散模型。法國(guó)國(guó)家科學(xué)研究中心(CNRS)密集型科學(xué)計(jì)算開發(fā)與資源研究所(IDRIS)的人工智能研究工程師Hatim Bourfone補(bǔ)充說(shuō):“人工智能會(huì)通過(guò)一種‘注意力機(jī)制’理解輸入文本的上下文含義。其輸出的內(nèi)容由其之前在訓(xùn)練階段學(xué)習(xí)的詞匯構(gòu)成,AI會(huì)根據(jù)每個(gè)詞出現(xiàn)的概率,判斷接下來(lái)該使用哪個(gè)詞”。用不同的數(shù)據(jù)庫(kù)訓(xùn)練算法,便能得到適用于不同情景的AI。
Bourfoune的團(tuán)隊(duì)參與開發(fā)了一款名為Bloom的AI,這是一款供研究人員使用的學(xué)術(shù)論文翻譯器。IDRIS 研究員Pierre Cornette 說(shuō)“Bloom模式的主要任務(wù)就是學(xué)習(xí)多門外語(yǔ)。我們給它輸入了大量的文本,然后讓它根據(jù)前文內(nèi)容去判斷下文該出現(xiàn)哪個(gè)詞。如果出錯(cuò)了,我們會(huì)糾正?!?/p>
01 蹣跚學(xué)步的新技術(shù)
Moulines解釋道:“第一代生成式AI模型的歷史還不到十年。生成式AI技術(shù)的首次突破發(fā)生于2017年:轉(zhuǎn)換器技術(shù)問(wèn)世,完善了注意力機(jī)制。到2021年,商用生成式AI就上市了,速度之快令人乍舌,比其他深度學(xué)習(xí)模型都要快得多?!北M管如此,我們必須認(rèn)識(shí)到ChatGPT等AI仍處于蹣跚學(xué)步的階段,有許多需要改進(jìn)的地方。
Moulines承認(rèn),GPT給出的答案的可信度不夠高,仍然是個(gè)問(wèn)題:“ChatGPT不知道什么是‘可信度’,不懂得評(píng)估自己給出的答案的準(zhǔn)確性?!边@就是為什么有時(shí)候ChatGPT會(huì)“一本正經(jīng)地胡說(shuō)八道”?!坝捎贑hatGPT純粹根據(jù)概率推理來(lái)生成單詞序列,所以會(huì)生成看似可信,實(shí)則虛假的內(nèi)容?!?/p>
除了會(huì)“瞎編”,生成式AI還有一些其他的缺陷需要引起我們的注意。AI在深度學(xué)習(xí)過(guò)程中,會(huì)大量吸收現(xiàn)有文本,也會(huì)內(nèi)化其中的偏見(jiàn)。Moulines說(shuō):“如果你問(wèn)ChatGPT地緣政治問(wèn)題,得到的答案都是西方國(guó)家的立場(chǎng)。這樣的答案中國(guó)用戶肯定不會(huì)認(rèn)同!”
02 無(wú)窮無(wú)盡的潛在應(yīng)用
生成式AI的魅力在于,通過(guò)使用多樣化的學(xué)習(xí)數(shù)據(jù)庫(kù),能夠開發(fā)出無(wú)窮無(wú)盡、功能各異的模型。Cornette 說(shuō):“生成式AI就如同一臺(tái)高功率的發(fā)動(dòng)機(jī),可以搭載在拖拉機(jī)上,讓其發(fā)揮最大牽引力,也能安裝在賽車中,讓其飛馳而過(guò)。”若把ChatGPT比作一輛賽車,GPT-4就是它的發(fā)動(dòng)機(jī)?!鞍l(fā)動(dòng)機(jī)是核心技術(shù)。開車的人不須要知道發(fā)動(dòng)機(jī)的原理,也能在賽場(chǎng)上風(fēng)馳電掣?!?/p>
Bloom也能反映生成式AI模型的廣泛應(yīng)用潛力。Bourfoune說(shuō):“一年前,Bloom是唯一一個(gè)對(duì)學(xué)界完全開放的模型?!比魏稳硕伎梢韵螺dBloom并用于自己的研究。經(jīng)過(guò)多語(yǔ)種科學(xué)論文數(shù)據(jù)庫(kù)的訓(xùn)練,Bloom現(xiàn)在能幫學(xué)者輕松理解外語(yǔ)論文。Cornette補(bǔ)充道:“Bloom的開發(fā)團(tuán)隊(duì)還發(fā)起了一個(gè)叫Bigcode的項(xiàng)目,用于計(jì)算機(jī)代碼自動(dòng)生成。只要簡(jiǎn)單地描述代碼的功能,Bigcode就可以用用戶指定的編程語(yǔ)言寫出具體的代碼。”
ChatGPT現(xiàn)在大受歡迎,表明一般用戶已經(jīng)意識(shí)到它的實(shí)用價(jià)值。為了與谷歌競(jìng)爭(zhēng),必應(yīng)已經(jīng)將GPT的聊天功能整合到其搜索引擎中,這種做法一定程度上能克服生成式AI“胡說(shuō)八道”的缺點(diǎn):必應(yīng)聊天給出的答案中會(huì)標(biāo)注信息來(lái)源,便于用戶理解并驗(yàn)證內(nèi)容的可靠性。最近,Adobe將生成式AI模型集成到Photoshop、Illustrator等軟件中,展示了另一種新穎應(yīng)用。
03 激動(dòng)人心的未來(lái)
從當(dāng)前的應(yīng)用來(lái)看,生成式AI必將迎來(lái)令人振奮的未來(lái),然而也有人擔(dān)心這一技術(shù)可能被濫用。Bourfoune承認(rèn):“任何技術(shù)有利必有弊。這就為什么OpenAI設(shè)置了多重安全屏障。” OpenAI的內(nèi)容政策也帶著這些安全因素的考量,因此在涉及ChatGPT運(yùn)作的許多問(wèn)題上,OpenAI都選擇保持沉默。
對(duì)于仍處于起步階段的生成式AI技術(shù),Moulines表示:“我們?cè)谘芯恐星宄刂兰夹g(shù)還在起跑線上。生成式AI已經(jīng)能實(shí)際使用,這一點(diǎn)我們都覺(jué)得驚訝?!辈贿^(guò),技術(shù)仍有許多法律監(jiān)管等各方面的空白有待填補(bǔ)。由于生成式AI以現(xiàn)有內(nèi)容數(shù)據(jù)庫(kù)為基礎(chǔ)生成內(nèi)容,可能會(huì)“剽竊”他人的作品,而不提及原作者的姓名?!耙约扔袃?nèi)容創(chuàng)作新作品,必須聲明原作來(lái)源。AI的行為涉嫌侵權(quán)?!?/p>
盡管生成式AI有各種局限性,但潛力依舊巨大。Moulines 說(shuō):“想到未來(lái)這一領(lǐng)域可能發(fā)生的突破,我心情十分激動(dòng)。生成式AI的發(fā)展勢(shì)不可擋,衍生應(yīng)用將如雨后春筍般出現(xiàn)?,F(xiàn)在大家都在爭(zhēng)相開發(fā)新技術(shù),進(jìn)展很快。” Bloom就屬于一種衍生應(yīng)用,既能促進(jìn)科學(xué)家之間的跨語(yǔ)種交流,又能將論文翻譯成稀有小語(yǔ)種,促進(jìn)科研結(jié)果的傳播,還有望用于保存瀕臨滅亡的語(yǔ)言。
不過(guò),在激動(dòng)之余,不能忽視生成式AI的碳足跡。Moulines解釋:“這些模型須要存儲(chǔ)大量數(shù)據(jù),故需要大量?jī)?nèi)存。根據(jù)我們的估算,OpenAI消耗的能量相當(dāng)于比利時(shí)整個(gè)國(guó)家電網(wǎng)的耗能。”未來(lái),能耗可能會(huì)是生成式AI發(fā)展道路上最大的阻礙。