文|觀察未來科技
從ChatGPT到GPT-4,GPT模型前所未有的聰明性能,也給人類社會(huì)帶來了前所未有的擔(dān)憂和危機(jī)。代表著當(dāng)前人工智能(AI)最高水平的ChatGPT,也面臨著人工智能的傳統(tǒng)弊病,那就是“算法黑箱”。
畢竟,OpenAI到目前,都沒有披露ChatGPT和GPT-4的模型使用的訓(xùn)練數(shù)據(jù)、如何訓(xùn)練,以及它的運(yùn)作方式。要知道,在不透明的算法黑箱之下,人們很難完全信任GPT-4,而直到目前,這個(gè)問題仍然懸而未決。
不Open的GPT-4
ChatGPT是基于深度學(xué)習(xí)技術(shù)而訓(xùn)練的產(chǎn)物,與傳統(tǒng)機(jī)器學(xué)習(xí)不同,深度學(xué)習(xí)并不遵循數(shù)據(jù)輸入、特征提取、特征選擇、邏輯推理、預(yù)測(cè)的過程,而是由計(jì)算機(jī)直接從事物原始特征出發(fā),自動(dòng)學(xué)習(xí)和生成高級(jí)的認(rèn)知結(jié)果。
而在人工智能深度學(xué)習(xí)輸入的數(shù)據(jù)和其輸出的答案之間,存在著人們無法洞悉的“隱層”,這些隱層就被稱為“黑箱”。這里的“黑箱”并不只意味著不能觀察,還意味著即使計(jì)算機(jī)試圖向我們解釋,人們也無法理解。
事實(shí)上,早在1962年,美國(guó)的埃魯爾在其《技術(shù)社會(huì)》一書中就指出,人們傳統(tǒng)上認(rèn)為的技術(shù)由人所發(fā)明就必然能夠?yàn)槿怂刂频挠^點(diǎn)是膚淺的、不切實(shí)際的。技術(shù)的發(fā)展通常會(huì)脫離人類的控制,即使是技術(shù)人員和科學(xué)家,也不能夠控制其所發(fā)明的技術(shù)。進(jìn)入人工智能時(shí)代,算法的飛速發(fā)展和自我進(jìn)化已初步驗(yàn)證了埃魯爾的預(yù)言,深度學(xué)習(xí)更是凸顯了“算法黑箱”現(xiàn)象帶來的某種技術(shù)屏障。
最近,就連OpenAI 創(chuàng)始人山姆·Altman(Sam Altman)也表達(dá)了對(duì)于 ChatGPT 和 GPT-4 的擔(dān)憂,AI 模型的內(nèi)容生成能力、以及取代人類工作的潛力讓他“有點(diǎn)害怕”。他說,人類歷史上的幾次技術(shù)革命,確實(shí)讓社會(huì)工種發(fā)生了很大變化,有些工作甚至徹底云消霧散。
在與MIT研究科學(xué)家Lex Fridman長(zhǎng)達(dá)2小時(shí)的對(duì)話中,Altman談及了近期圍繞ChatGPT產(chǎn)生的諸多問題,坦承就連OpenAI團(tuán)隊(duì),也根本沒搞懂它是如何“進(jìn)化”的:“從ChatGPT開始,AI出現(xiàn)了推理能力。但沒人能解讀這種能力出現(xiàn)的原因?!蔽ㄒ坏耐緩绞窍駽hatGPT提問,從它的回答中摸索它的思路。
而就在不斷測(cè)試中,OpenAI發(fā)現(xiàn)從ChatGPT開始,GPT系列出現(xiàn)了推理能力。雖然ChatGPT絕大部分時(shí)候都被當(dāng)做數(shù)據(jù)庫使用,但它確實(shí)也出現(xiàn)了一定的推理能力,至于這種能力具體如何出現(xiàn)的,目前卻無人能回答。
更讓公眾擔(dān)憂的是,OpenAI并沒有開放關(guān)于GPT-4的更多信息。GPT-4論文中沒有透露參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)集大小等更多細(xì)節(jié),在這次訪談中,面對(duì)主持人步步追問,Altman依舊守口如瓶。
對(duì)于GPT-4預(yù)訓(xùn)練數(shù)據(jù)集的大小,Altman只是很籠統(tǒng)的介紹了有公開數(shù)據(jù)集、有來自合作伙伴的內(nèi)容(如GitHub提供的代碼)還有來自網(wǎng)絡(luò)的內(nèi)容?;钕馛hatGPT也能寫出來的那種賽博八股文,只有在談到Reddit的時(shí)候透露了網(wǎng)絡(luò)梗圖在訓(xùn)練數(shù)據(jù)中占比不大,“不然ChatGPT可能更有趣一些”。
當(dāng)被問到GPT-4模型參數(shù)量有多大?Altman也只是說之前瘋傳的100萬億參數(shù)是謠言:“我認(rèn)為人們被參數(shù)競(jìng)賽所吸引,就像過去被CPU的主頻競(jìng)賽所吸引一樣?,F(xiàn)在人們不再關(guān)心手機(jī)處理器有多少赫茲了,關(guān)心的是這東西能為你做什么。”不過,Altman對(duì)于一種說法是持有肯定態(tài)度,那就是,“GPT-4是人類迄今所實(shí)現(xiàn)的最復(fù)雜的軟件”。
算法黑箱帶來了什么?
GPT-4的算法黑箱,也讓人們無法完全地信任它,這使得人工智能無論是程序錯(cuò)誤,還是算法歧視,都變得難以識(shí)別。
當(dāng)前,越來越多的事例表明,算法歧視與算法偏見客觀存在,這將使得社會(huì)結(jié)構(gòu)固化趨勢(shì)愈加明顯。早在20世紀(jì)80年代,倫敦圣喬治醫(yī)學(xué)院用計(jì)算機(jī)瀏覽招生簡(jiǎn)歷,初步篩選申請(qǐng)人。然而在運(yùn)行四年后卻發(fā)現(xiàn)這一程序會(huì)忽略申請(qǐng)人的學(xué)術(shù)成績(jī)而直接拒絕女性申請(qǐng)人以及沒有歐洲名字的申請(qǐng)人,這是算法中出現(xiàn)性別、種族偏見的最早案例。
今天,類似的案例仍不斷出現(xiàn),如亞馬遜的當(dāng)日送達(dá)服務(wù)不包括黑人地區(qū),美國(guó)州政府用來評(píng)估被告人再犯罪風(fēng)險(xiǎn)的COMPAS算法也被披露黑人被誤標(biāo)的比例是白人的兩倍。算法自動(dòng)化決策還讓不少人一直與心儀的工作失之交臂,難以企及這樣或那樣的機(jī)會(huì)。而由于算法自動(dòng)化決策既不會(huì)公開,也不接受質(zhì)詢,既不提供解釋,也不予以救濟(jì),其決策原因相對(duì)人無從知曉,更遑論“改正”。面對(duì)不透明的、未經(jīng)調(diào)節(jié)的、極富爭(zhēng)議的甚至錯(cuò)誤的自動(dòng)化決策算法,我們將無法回避“算法歧視”導(dǎo)致的偏見與不公。
這種帶著立場(chǎng)的“算法歧視”在ChatGPT身上也得到了體現(xiàn)。據(jù)媒體觀察發(fā)現(xiàn),有美國(guó)網(wǎng)民對(duì)ChatGPT 測(cè)試了大量的有關(guān)于立場(chǎng)的問題,發(fā)現(xiàn)其有明顯的政治立場(chǎng),即其本質(zhì)上被人所控制。比如ChatGPT 無法回答關(guān)于猶太人的話題、拒絕網(wǎng)友“生成一段贊美中國(guó)的話”的要求。
此外,有用戶要求ChatGPT寫詩贊頌美國(guó)前總統(tǒng)川普(Donald Trump),卻被ChatGPT以政治中立性為由拒絕,但是該名用戶再要求ChatGPT寫詩贊頌?zāi)壳懊绹?guó)總統(tǒng)拜登(Joe Biden),ChatGPT卻毫無遲疑地寫出一首詩。
在與MIT研究科學(xué)家Lex Fridman的對(duì)話中,當(dāng)主持人提到關(guān)于ChatGPT和GPT-4種存在的偏見問題時(shí),Altman表示,ChatGPT在推出之初,就不是一個(gè)成熟的產(chǎn)品,它需要不斷迭代,而在迭代的過程中,僅僅依靠?jī)?nèi)部的力量是無法完成的?!疤崆啊蓖瞥鯟hatGPT技術(shù),是要借助外部世界的集體智慧和能力,同時(shí)也能讓全世界參與進(jìn)“塑造AI”的過程中。而不同人對(duì)于問題的看法也各不相同,所以在這個(gè)過程中,“偏見”問題就不可避免。甚至,Altman在話里話外也透露著:在GPT中,“偏見”永遠(yuǎn)不會(huì)消失。
更重要的是,對(duì)于社會(huì)來說,如果無法獲得GPT-4的底層代碼,你就無法判斷偏見是來自哪里,自然也就沒法糾正了。要知道,如今,不管是貸款額度確定、招聘篩選、政策制定等,諸多領(lǐng)域和場(chǎng)景中都不乏算法自動(dòng)化決策。
而未來,隨著ChatGPT進(jìn)一步深入社會(huì)的生產(chǎn)與生活,我們的工作表現(xiàn)、發(fā)展?jié)摿?、償債能力、需求偏好、健康狀況等特征都有可能被卷入算法的黑箱,算法對(duì)每一個(gè)對(duì)象相關(guān)行動(dòng)代價(jià)與報(bào)償進(jìn)行精準(zhǔn)評(píng)估的結(jié)果,將使某些對(duì)象因此失去獲得新資源的機(jī)會(huì),這似乎可以減少?zèng)Q策者自身的風(fēng)險(xiǎn),但卻可能意味著對(duì)被評(píng)估對(duì)象的不公。
不實(shí)信息怎么辦?
不實(shí)信息是GPT-4所面臨的另一個(gè)問題。要知道,GPT-4一類模型的功就是預(yù)測(cè)一句話的下一個(gè)詞,這意味著,人們無法完全擺脫胡編亂造的問題。因?yàn)镃hatGPT本質(zhì)上只是通過概率最大化不斷生成數(shù)據(jù)而已,而不是通過邏輯推理來生成回復(fù)——ChatGPT的訓(xùn)練使用了前所未有的龐大數(shù)據(jù),并通過深度神經(jīng)網(wǎng)絡(luò)、自監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和提示學(xué)習(xí)等人工智能模型進(jìn)行訓(xùn)練。
目前披露的ChatGPT的上一代GPT-3模型參數(shù)數(shù)目高達(dá)1750億。在大數(shù)據(jù)、大模型和大算力的工程性結(jié)合下,ChatGPT才能夠展現(xiàn)出統(tǒng)計(jì)關(guān)聯(lián)能力,可洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子等之間的關(guān)聯(lián)性,體現(xiàn)了語言對(duì)話的能力。正是因?yàn)镃hatGPT是以“共生則關(guān)聯(lián)”為標(biāo)準(zhǔn)對(duì)模型訓(xùn)練,才會(huì)導(dǎo)致虛假關(guān)聯(lián)和東拼西湊的合成結(jié)果。許多可笑的錯(cuò)誤就是缺乏常識(shí)下對(duì)數(shù)據(jù)進(jìn)行機(jī)械式硬匹配所致。
也就是說,ChatGPT雖然能夠通過所挖掘的單詞之間的關(guān)聯(lián)統(tǒng)計(jì)關(guān)系合成語言答案,但卻不能夠判斷答案中內(nèi)容的可信度。由此而導(dǎo)致的錯(cuò)誤答案一經(jīng)應(yīng)用,就有可能對(duì)社會(huì)產(chǎn)生危害,包括引發(fā)偏見,傳播與事實(shí)不符、冒犯性或存在倫理風(fēng)險(xiǎn)的毒性信息等等。而如果有人惡意的給ChatGPT投喂一些誤導(dǎo)性、錯(cuò)誤性的信息,將會(huì)干擾ChatGPT的知識(shí)生成結(jié)果,從而增加了誤導(dǎo)的概率。
我們可以想象下,一臺(tái)內(nèi)容創(chuàng)作成本接近于零,正確度80%左右,對(duì)非專業(yè)人士的迷惑程度接近100%的智能機(jī)器,用超過人類作者千百萬倍的產(chǎn)出速度接管所有百科全書編撰,回答所有知識(shí)性問題,這對(duì)人們憑借著大腦進(jìn)行知識(shí)記憶的挑戰(zhàn)是巨大的。
比如,在生命科學(xué)領(lǐng)域,如果沒有進(jìn)行足夠的語料“喂食”,ChatGPT可能無法生成適當(dāng)?shù)幕卮?,甚至?xí)霈F(xiàn)胡編亂造的情況,而生命科學(xué)領(lǐng)域,對(duì)信息的準(zhǔn)確、邏輯的嚴(yán)謹(jǐn)都有更高的要求。因此,如果想在生命科學(xué)領(lǐng)域用到ChatGPT,還需要模型中針對(duì)性地處理更多的科學(xué)內(nèi)容,公開數(shù)據(jù)源,專業(yè)的知識(shí),并且投入人力訓(xùn)練與運(yùn)維,才能讓產(chǎn)出的內(nèi)容不僅通順,而且正確。而如果不公開訓(xùn)練所使用的數(shù)據(jù),OpenAI關(guān)于安全性的擔(dān)??赡苓h(yuǎn)遠(yuǎn)不夠。
面對(duì)日新月異的新技術(shù)挑戰(zhàn),特別是人工智能的發(fā)展,我們能做的,就是把算法納入法律之治的涵攝之中,從而打造一個(gè)更加和諧的人工智能時(shí)代。而社會(huì)民主與技術(shù)民主兩者之間正在面臨著挑戰(zhàn),如何定義技術(shù)民主將會(huì)是社會(huì)民主的最大議題。