文|酷玩實驗室
1997年,一臺叫“深藍”的超級電腦僅僅用11步就擊敗了國際象棋大師卡斯帕羅夫,第一次完成電腦對人類的智力逆襲。
在那個AI技術還處于低谷的年代,卡斯帕羅夫賽后堅持認為有人在操控,引發(fā)的爭議讓人們只把這件事當成茶余飯后的談資,或者科幻電影素材,沒人想到,十年蟄伏后,一個AI的時代來的這么迅猛。
2010年,微軟剛剛用全球第一款探測跟蹤人體運動的智能游戲設備把AI悄然帶到了普通消費者面前,遠在中國的百度就在財報電話會議上就透露了all in AI的計劃,產業(yè)競爭初見端倪。
三年后,谷歌brain項目的吳恩達教授團隊用三臺機器上的Nvidia圖形處理單元(GPU)集群訓練出了此前要一千臺電腦才能完成的貓咪圖像識別神經網絡,拉開了人工智能發(fā)展的快車道。
等2015年馬斯克剛剛成立Open AI,第二年,一個叫做AlphaGo的AI就以4:1的成績擊敗了韓國圍棋冠軍李世石。喚起了比人類當年面對深藍更強烈的壓迫感。
因為下圍棋所需要的的算力要比國際象棋高出N個數量級,當然消耗的能量也比人類搞得多——下一場圍棋光電費就要三千多美元。
從那之后,AI就越來越頻繁霸榜科技媒體頭版頭條。
比如,升級后的AlphaGo Zero打敗了人類圍棋冠軍柯潔、AlphaStar的AI在《星際爭霸2》中拿到了大師級段位,游戲渲染更流暢的DLSS技術也用到了AI,AI換臉、AI推送、AI自動駕駛也不是什么新鮮的玩意兒了。還有AI數字人度曉曉挑戰(zhàn)高考作文,以48分的分數超過75%考生。
沒想到這兩年,AI再次迎來了一波熱潮,但與此前總是挑戰(zhàn)人類頂尖選手不同的是,這次AI顛覆的是每個普通人的生活。
首先是2020年,一個叫GPT-3的AI向全世界宣布:“我寫的作文,幾乎通過了圖靈測試”,驚掉了很多人的下巴。
沒等輿論把圖靈測試到底是什么給公眾科普清楚,一個叫做“DALL-E”的繪畫AI就在網絡上病毒式傳播開了。
用戶只要輸入一段文字,AI就可以生成符合描述的圖像,作畫效果出奇的好。
因為你輸入的描述可不僅僅是“天空”、“城市”、“激光”、“敵人”這樣簡單的詞語,還可以是“一座漂浮在天空的城市在用激光和敵人戰(zhàn)斗”這種雜糅了多種元素的自然語言表達。
同時,生成的圖像也絕對不是“在PS里把幾種元素隨意拼接在一起”的程度,而是構圖、配色、風格都非常統(tǒng)一的形式,還可以指定諸如“賽博朋克”、“UE4渲染”、“宮崎駿”等特定的作畫風格。
由于AI作畫的水準在線,創(chuàng)意也非常新穎,這東西經常是玩起來一晚上就過去了,上癮程度堪比刷短視頻。
但這還沒完,到了過年的時候,與GPT-3同一家公司的聊天AI—— ChatGPT來了。而且轟動程度一點也不亞于AI作畫,從零到一百萬用戶,只用了五天,當初扎克伯格的臉書用了整整一年。
ChatGPT厲害之處就是它擅長的是自然語言處理(NLP)。簡單來說,它的作用就是“有問必答”,而且更像是在跟人聊天,你甚至可以讓ChatGPT寫一段小說場景,或者寫一段實現具體功能的代碼,甚至年終總結也可以交給它試一試。
哪怕對于一些比較抽象的概念,ChatGPT也會先向人詢問這些概念到底指什么,再做出自己的回答,真是個小機靈鬼。
這么看的話,ChatGPT是不是有點通過圖靈測試那味兒了?
當然,由于預言與注冊程序的原因,國內用戶想要體驗這兩類AI應用還是比較困難的,但國內對于AIGC的研發(fā)也完全不落下風。
比如百度的文心一格可以用來AI作畫,文心NLP大模型ERNIE可以寫詩、可以撰文。而且國內的產品也往往對于中文有更好的支持,在寫描述的時候也不用翻譯來翻譯去的了。
在此前幾輪的AI熱潮中,不論是下棋還是駕駛還是機器人,主角都是決策式AI。
而“AI作畫”和“AI聊天”,它們的名字叫生成式AI。
生成式AI擅長的是歸納后演繹創(chuàng)造,根據人給出的條件進行縫合式創(chuàng)作、模仿式創(chuàng)新。英偉達的CEO黃仁勛相信,生成式AI會成為一項革命性的技術。
不過在10年代的機器學習教科書中,早已就有了這兩類AI。為什么在2020年后出現有了顯著突破呢?
真正的關鍵是,大模型的突破。
2019年 3 月,強化學習之父Richard Sutton發(fā)文表示:“短期內要使AI能力有所進步,研究者應尋求在模型中利用人類先驗知識;但之于AI的發(fā)展,唯一的關鍵點是對算力資源的充分利用。”
神經網絡模型在上世紀90 年代出現,但在2010 年前,基于統(tǒng)計的學習模型仍是主流,所以在打敗人類象棋高手多年后,遲遲無法攻克變數近乎宇宙級的圍棋。
后來得益于GPU算力的高速進步與深度神經網絡、卷積神經網絡等等算法的進步,深度學習模型逐漸成為主流,擺脫了窮舉法的限制,AI能夠用來學習訓練的參數也越來越多,充分利用了GPU 擅長并行計算的能力,基于龐大的數據集、復雜的參數結構一次次刷新人類對AI智力天花板的想象。
簡單來說,早期的AI就像個剛出生的小嬰兒,什么也不懂。爸爸媽媽就要拿著一張“貓”的圖片然后跟他說“這是一只貓”,建立起圖像和語言的聯系。AI也是如此,我們需要大量的“識圖卡”來訓練AI。
在十年前,由于芯片的算力有限,人類使用的方法非常笨拙:
找出一張主體是貓的圖片,然后人工打上“貓”的標簽,喂給AI來學習,效率非常低下,而且訓練出來的AI只能識別特定的物種。經過大量的訓練,AI雖然能識別幾千類物品,可一旦遇到復雜的情況就蒙了。比如給一只狗帶上貓貓的頭套,AI大概率就出錯了,因為它只認識0和1,但不認識0.5。
但大模型就不一樣了。
隨著算力的提升,AI能處理的樣本數量也突飛猛進。
工程師們反而可以化繁為簡,直接把大量的網絡圖片丟給AI去學習就好了。
因為網絡上的圖片一般都是自帶描述的,而且畫面還更復雜,比如“一只狗在草地上玩飛盤”,包括多個主體還有動作,一下子讓AI接收的信息量暴增。
比如,DALL-E 2采用了6.5億張圖文配對,這種龐大的樣本數量就構成了AI的“大模型”,也是這兩年AI發(fā)展的大趨勢。從結果上來看,大模型也的確讓AI從量變達到了質變,比如我們不僅可以畫“貓”和“火焰”,還可以畫“用火焰構成的貓”這種現實中不會存在的幻想生物。
所以,大模型便是樣本參數量達到一定量級的產物,一旦突破某個質變點,比如十億級的參數量,就能實現在小模型無法實現的泛用性。
因為無論是AI作畫、AI聊天還是AI寫小說、寫詩歌,其背后最大的共同點是,可以分析識別人類的自然語言。而語言和人類的知識、思維整體相關,所以AI學習勢必需要龐大的參數來支撐。
所以大模型的“大”主要體現在兩個方面,一個是AI模型自身的參數數量在呈指數級增加,另一個是用于訓練AI的樣本也在質和量上有著越來越夸張的提升。
如果把AI模型比作人的大腦,那參數就相當于大腦中神經元的數量。
早在2019年,Open AI實驗室核算了自2012年以來模型所用的計算量。
從最早的AlexNet模型,就是在AI分類比賽中讓卷積神經網絡一戰(zhàn)成名,是影響AI進程冠軍模型,到AlphaGo Zero模型,即打敗韓國圍棋九段棋手李世石的AlphaGo增強版,七年里,兩者之間參數指標增長30萬倍。
那些同時期堪稱“最大”的AI訓練模型所使用的計算量,呈指數型增長,平均3.4個月就會倍增,比芯片摩爾定律還要快。
國內也是一樣,百度2016年用于語音識別的DeepSpeech訓練模型的參數是億級,到了今天的用于繪畫、寫作、聊天的文心大模型中,也有多個模型參數達到了千億級別。
簡單來說,大模型突出的就是一個“力大磚飛”,讓AI的能力在參數增加到某個階段就突然獲得從量變到質變突破性進展。
這種“突現能力”的具體原因科學家還在研究,可能是代碼、指令上的微調,還可能是AI在預訓練的海量數據中偶然學到了類似問題的思維鏈參數。
似乎只要參數夠大,一切皆有可能。
如果有一天AI像人腦一樣,有百萬億個參數,那AI的智能可能真的可以和人類比肩。
但這并沒有那么容易。
面對這么大的參數量,不管是百度還是谷歌,都認為自然語言處理對整個人工智能的未來都是非常大的挑戰(zhàn)。
因為整個AI框架的設計是否合理,芯片之間如何分配工作量,如何讓更多的芯片滿負荷運作,這些在實際應用中是很難同時達到完美狀態(tài)的。
總之,對于AI訓練來說,巨大的參數代表著算力、技術與費用的暴增,而且產出并不是線性增長的。說不定100個AI芯片砸下去,也就比1個AI芯片提升了幾倍的效率,投入效費比極速下跌。
像OpenAI公司GPT-3這種千億級別參數的大模型,一次訓練的花銷高達千萬美元,而同樣是馬斯克創(chuàng)立的SpaceX,一顆衛(wèi)星成本也不過是五十萬美元。
據馬里蘭大學副教授Tom Goldstein粗略估計,如果100萬ChatGPT用戶平均每天只進行10次對話,那么Open AI就需要為ChatGPT每天燒掉10萬美元(68萬人民幣)。
而現在ChatGPT的對話水平只能說交流沒問題,還遠遠到不了能夠創(chuàng)造利潤的地步,而未來每一次的訓練進步,都是錢燒出來的。
所以,短期來看,為每一個人配備鋼鐵俠賈維斯那樣全知全能的AI看來是無望了。
在國內,像是百度的文心大模型在不斷推進算法、算力的同時,更加專注模型的效率,而且更加貼近產業(yè)落地應用。
比如GPT-3很聰明,可以生成所有的結果,但它沒有人類習慣的常識。比如AI繪畫中,人的手指總是出問題,從三根四根到七根八根都可能出現,結果是精美的畫面常常出現低級錯誤。
這時候就需要給AI一個常識,幫助AI快速理解人類社會。
而如果這個知識圖譜足夠專業(yè)、細致,那么大模型就能干更專業(yè)的事情。
所以在龐大的參數基礎上,文心大模型有兩個突出特點——知識增強和產業(yè)級,知識增強也就是類似AI繪畫海量圖文匹配的大規(guī)模數據樣本,比如文心一格就采用了10億張圖文來配對,大幅增強了模型對于知識的記憶與推理能力,學習效率更高,而且在實體問答、知識預測、可控文本生成上擁有更好的效果。
為此,文心大模型背后還擁有一套從整個互聯網世界自動挖掘知識的方法體系,突破了從無結構直言語言數據中挖掘大規(guī)模結構知識的技術瓶頸,讓百度打造了擁有5500億知識的多元異構超大規(guī)模的知識圖譜。
這一特點也讓文心大模型擁有了大量產業(yè)級應用落地的能力,可以推動各行各業(yè)智能化升級,目前已經于工業(yè)、能源、金融、通信、媒體、教育等各個領域。
這還需要數據之外更底層技術框架支持。
比如一系列AI大模型開發(fā)需要的工具組件、開發(fā)套件、基礎模型庫、核心框架、AI開發(fā)者社區(qū)等等,才能最大程度加速了傳統(tǒng)產業(yè)智能化升級,從人才培養(yǎng)開始為大模型的落地鋪路。
聊完了,國內外的大模型與AIGC前沿競爭格局,最后還是要回到人與AI的關系上來。
現在的AI已經能繪畫、寫小說、寫代碼、甚至可以做視頻了,如果AIGC真的擴展到更多的領域,我們還是要問出那個一直擔憂的問題:
AI會造成人類的大規(guī)模失業(yè)嗎?
我覺得,如果人們對AI的發(fā)展報以一種厭惡和排斥的態(tài)度,那它逐漸取代部分人的工作只是時間問題。但如果我們能夠接納AI的發(fā)展,去主動了解、使用AI,讓它成為日常工作生活中的得力助手,那我們就不會被AI取代,反而會在AI幫助下更好的創(chuàng)作內容。
這并不是一種“打不過就加入”的無奈,反而是人類不斷發(fā)展的必然。
正如熱兵器最終取代了冷兵器,信息化軍隊脫胎于機械化軍隊,互聯網一定程度上取代了傳統(tǒng)媒體,我們之所以成為今天的我們,同樣也是接納了諸多新事物的結果。而且在當下,一些技術的發(fā)展正處于瓶頸,或者是被一張薄紙擋住未來。
比如VR領域的計算機圖形學,同樣也需要AI從另一個角度去攻破。就連計算機圖形學大佬約翰·卡馬克也在開拓通用人工智能的道路,并表示“想嘗試一些沒人知道會走向何方的領域”。
無論是芯片產業(yè)的殘酷博弈、AI算法競賽還是知識圖譜比拼,甚至是不知方向的瘋狂砸錢,面對AI帶來的期待與焦慮,人類今天種種,是因為誰也說不好,哪一天AI技術就如爆炸一樣,捅穿了蒙在未來前面那張薄紙。
今天人類的彷徨、迷惑,甚至不屑,都可能是圖靈當年所說的:
“不過是將來之事的前奏,也是將來之事的影子?!?/p>