文|游戲觀察
10月5日,英國(guó)《自然》雜志以“矩陣游戲”(Matrix Games)為題,將DeepMind團(tuán)隊(duì)通過(guò)游戲訓(xùn)練AI發(fā)現(xiàn)矩陣乘法算法問(wèn)題作為了封面報(bào)道。
DeepMind 的最新研究探討了現(xiàn)代 AI 技術(shù)如何推動(dòng)新矩陣乘法算法的自動(dòng)發(fā)現(xiàn),通過(guò)名為“AlphaTensor” 的AI在游戲中的反復(fù)演算解決了50 年來(lái)在數(shù)學(xué)領(lǐng)域一個(gè)懸而未決的問(wèn)題,找到兩個(gè)矩陣相乘最快方法。
以此延申,對(duì)于更大更復(fù)雜的矩陣來(lái)說(shuō),AI發(fā)現(xiàn)算法比許多 SOTA 方法更有效。該研究表明 AI 設(shè)計(jì)的算法優(yōu)于人類設(shè)計(jì)的算法,這是算法發(fā)現(xiàn)領(lǐng)域向前邁出的重要一步。DeepMind 同時(shí)提出了 AlphaTensor是第一個(gè)可用于為矩陣乘法等基本任務(wù)發(fā)現(xiàn)新穎、高效且可證明正確的算法的人工智能系統(tǒng)。
從圍棋、紙牌到更復(fù)雜的策略類游戲,“AI+游戲”的研究逐步深化,AlphaTensor其實(shí)也是我們熟知的阿爾法狗到AlphaZero的升級(jí)版。DeepMind依靠AI與游戲的結(jié)合,多次公布研究成果和登上《自然》雜志,比如2015年《通過(guò)深度強(qiáng)化學(xué)習(xí)達(dá)到人類水平的控制》,提出了著名的深度Q網(wǎng)絡(luò)(DQN);2019年AlphaZero從0自學(xué)完虐前輩阿爾法狗等。
事實(shí)上,矩陣游戲更大的意義在于,AI與游戲的結(jié)合突破了以往簡(jiǎn)單利用、大數(shù)據(jù)環(huán)境訓(xùn)練學(xué)習(xí)的傳統(tǒng)模式,從通過(guò)預(yù)先人為程序和算法設(shè)計(jì),轉(zhuǎn)向利用AI的自主學(xué)習(xí)和演化能力,突破和帶動(dòng)數(shù)學(xué)算法以及其他科學(xué)研究進(jìn)步的可能性。
游戲發(fā)展離不開AI,也可以成為AI進(jìn)步、科學(xué)探索競(jìng)爭(zhēng)力的重要一環(huán)。
游戲?qū)I的利用
即使從游戲娛樂(lè)的基礎(chǔ)屬性來(lái)看,AI都是行業(yè)發(fā)展重要的一部分。
無(wú)論是單機(jī)還是網(wǎng)游,玩家熱衷于PVE還是PVP,AI提供的內(nèi)容交互能力都成為影響當(dāng)下發(fā)展的關(guān)鍵部分。隨著行業(yè)競(jìng)爭(zhēng)白熱化,玩家對(duì)于游戲內(nèi)容和質(zhì)量的要求不斷提高,對(duì)于內(nèi)容的消耗速度也在不斷加速,這對(duì)開發(fā)團(tuán)隊(duì)的持續(xù)內(nèi)容生產(chǎn)能力提出了更高的要求,如肉鴿在內(nèi)的可重復(fù)玩法被廣泛采用,這樣類似的設(shè)計(jì)程度提高游戲可重復(fù)性的同時(shí),變相降低了生產(chǎn)壓力。
而AI對(duì)于當(dāng)下游戲的幫助既體現(xiàn)在游戲設(shè)計(jì),也存在于游戲體驗(yàn)。越來(lái)越多開發(fā)者將之作為生產(chǎn)工具助力,來(lái)提升產(chǎn)出效率和節(jié)約成本,比如最近越來(lái)越多討論的AI制圖,AI根據(jù)用戶輸入的關(guān)鍵詞進(jìn)行搜索、學(xué)習(xí)、拼接融合成符合要求的內(nèi)容。另一方面在游戲質(zhì)量的比拼中,AI也被視作提升游戲沉浸感和代入感關(guān)鍵技術(shù),擬真交互并以此自動(dòng)演化新的內(nèi)容和體驗(yàn)是長(zhǎng)期存在于暢想中的理想環(huán)節(jié),包括元宇宙在內(nèi)的虛擬世界都離不開AI的添磚加瓦。
AI利用游戲?qū)W習(xí)訓(xùn)練
算法、數(shù)據(jù)、算力、場(chǎng)景是AI研究的四大要素。然而,面對(duì)算法測(cè)試?yán)щy、場(chǎng)景及數(shù)據(jù)稀缺、算力昂貴等問(wèn)題,并非所有環(huán)境都適宜研究AI自我學(xué)習(xí)。然而游戲行業(yè)的快速發(fā)展,便捷虛擬環(huán)境的提供、大數(shù)據(jù)的優(yōu)勢(shì),成為當(dāng)下AI實(shí)驗(yàn)的良好土壤。
在過(guò)去的“AI+游戲”發(fā)展中,最廣為人知的是通過(guò)人與機(jī)(AI)的不斷博弈,探索AI進(jìn)化的可能性。
1997年,IBM的Deep Blue深藍(lán)以4:2戰(zhàn)勝了國(guó)際象棋世界冠軍卡斯帕羅夫。2016年和2017年,AlphaGo先后戰(zhàn)勝李世石與柯杰世界聞名。
棋類游戲之外,牌類游戲也是游戲AI關(guān)注的一個(gè)焦點(diǎn)。作為一款非完美信息游戲,紙牌游戲不僅涉及策略合作,隊(duì)友/對(duì)手水平等復(fù)雜因素,其牌型組合更高,極大地限制了如 CFR 等搜索類算法的使用,也對(duì)算法模型的創(chuàng)新探索提出了更高的要求。
前不久網(wǎng)易互娛 AI Lab 聯(lián)合上海交通大學(xué)和 CMU開源基于完美信息蒸餾(PTIE)的斗地主 AI“PerfectDou”。相關(guān)研究成果還登上了AI頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2022,受到國(guó)際學(xué)術(shù)界的高度認(rèn)可。
在此基礎(chǔ)上,更復(fù)雜的即時(shí)對(duì)戰(zhàn)和策略游戲也成為研究AI的重要方向,考察AI能否綜合對(duì)多種單位、多種要素等的分析,設(shè)計(jì)復(fù)雜的計(jì)劃,并隨時(shí)根據(jù)情況靈活調(diào)整計(jì)劃。DeepMind此前宣布和暴雪合作,將《星際爭(zhēng)霸2》作為新一代AI測(cè)試環(huán)境,發(fā)布SC2LE平臺(tái)。
對(duì)于國(guó)內(nèi),《王者榮耀》這款國(guó)民產(chǎn)品成為騰訊AI研究的基點(diǎn)。2020年,騰訊AI Lab攜手《王者榮耀》聯(lián)合建設(shè)“開悟”訓(xùn)練平臺(tái)。平臺(tái)為科研人員提供技術(shù)與資源支持,保證學(xué)界在人工智能研究訓(xùn)練時(shí)所需要的大規(guī)模運(yùn)算。同時(shí)通過(guò)騰訊開悟多智能體強(qiáng)化學(xué)習(xí)系列大賽,邀請(qǐng)來(lái)自清華北大等20余所國(guó)內(nèi)外頂尖高校的師生團(tuán)隊(duì)借助《王者榮耀》開展AI研究的競(jìng)爭(zhēng)。
發(fā)現(xiàn)、驗(yàn)證算法的新臺(tái)階
雖然AI+游戲的落地可應(yīng)用場(chǎng)景,學(xué)術(shù)界還在不斷研究如何落地,但廣泛的共識(shí)是,在交通、醫(yī)療、航天等重點(diǎn)領(lǐng)域AI都大有可為。而AlphaTensor此次的實(shí)驗(yàn)成果,表明“AI+游戲”突破以往人為設(shè)計(jì)然后訓(xùn)練學(xué)習(xí)的限制,可以運(yùn)用于基礎(chǔ)數(shù)學(xué)算法以及其他科學(xué)探究的可能性。
矩陣計(jì)算廣泛地運(yùn)用于當(dāng)下的計(jì)算環(huán)境,對(duì)于矩陣乘法的提升也將產(chǎn)生廣泛的社會(huì)影響。DeepMind從游戲系統(tǒng)設(shè)計(jì)中尋找靈感,通過(guò)樹形搜索的方式,將矩陣乘法高效算法的問(wèn)題轉(zhuǎn)換為在單人游戲中尋求數(shù)學(xué)結(jié)果效率最高。
當(dāng)然,這個(gè)游戲的復(fù)雜性在于,要考慮的可能算法的數(shù)量遠(yuǎn)遠(yuǎn)大于宇宙中原子的數(shù)量。研究人員通過(guò)重新設(shè)計(jì)神經(jīng)結(jié)構(gòu),利用AlphaTensor 來(lái)玩這個(gè)游戲,且AI在開始時(shí)沒(méi)有任何現(xiàn)有矩陣乘法算法的知識(shí),在反復(fù)的游戲過(guò)程中重新演化對(duì)于矩陣乘法的算法探索,甚至首次在一個(gè)有限域中改進(jìn)了 Strassen (歷史最快算法)的二階算法。
由于矩陣乘法是計(jì)算機(jī)圖形學(xué)、數(shù)字通信、神經(jīng)網(wǎng)絡(luò)訓(xùn)練和科學(xué)計(jì)算等很多計(jì)算任務(wù)的核心組成部分,AlphaTensor 發(fā)現(xiàn)的算法可以顯著提升這些領(lǐng)域的計(jì)算效率。
在論文中,DeepMind 希望基于他們的研究,更多地將人工智能用來(lái)幫助社會(huì)解決數(shù)學(xué)和科學(xué)領(lǐng)域的一些最重要的挑戰(zhàn)。
不可否認(rèn)的是,“AI+游戲”已經(jīng)成為騰訊、網(wǎng)易等國(guó)內(nèi)頭部游戲企業(yè)發(fā)力的核心方向,三七、盛趣、完美、B站等也都在AI+游戲的相關(guān)應(yīng)用探索報(bào)道。利用企業(yè)在游戲領(lǐng)域的優(yōu)勢(shì),充分發(fā)揮游戲幫助AI訓(xùn)練和學(xué)習(xí)的可行性。
而AI+游戲在基礎(chǔ)算法突破上的案例也會(huì)激發(fā)更多高校和頭部機(jī)構(gòu)加強(qiáng)這方面的研究投入和合作交流,相較于傳統(tǒng)學(xué)術(shù)研究中AI單一、定向的特點(diǎn),游戲多輸入、多場(chǎng)景和多任務(wù)下的復(fù)雜問(wèn)題的場(chǎng)景構(gòu)建能力、龐大數(shù)據(jù)的支撐、算法突破的可行性都會(huì)成為助力“AI+游戲”發(fā)展的強(qiáng)動(dòng)力,將AI游戲策略研究探索轉(zhuǎn)化成更多領(lǐng)域的產(chǎn)業(yè)價(jià)值。