文|智東西 ZeR0
編輯|漠影
智東西11月3日?qǐng)?bào)道,昨晚,谷歌舉辦人工智能(AI)年度活動(dòng),并公布多項(xiàng)AI研究進(jìn)展,包括用AI生成具有難以置信的真實(shí)性的視頻、文字、圖像、音頻,以及用AI預(yù)防洪水、野火等自然災(zāi)害,解決社會(huì)面臨的重大挑戰(zhàn)。
同時(shí),谷歌宣布推出“一千種語(yǔ)言計(jì)劃”,其語(yǔ)言模型將支持全球1000種最常用語(yǔ)言的模型,讓更多語(yǔ)種受益于AI。
01.AI準(zhǔn)確理解文字描述,生成超分辨率視頻
生成式AI已經(jīng)成為高效生成文本、代碼、音頻、圖像和視頻的強(qiáng)大工具。
今夏早些時(shí)候,谷歌介紹了兩種AI生成圖像模型Imagen和Parti,它們都能從文本提示生成圖像。隨后谷歌又公布兩種互補(bǔ)的研究方法Phenaki和Imagen Video,能根據(jù)文本生成短視頻。
其中,Phenaki可以隨著文本描述(prompts)的時(shí)間變化,生成長(zhǎng)達(dá)數(shù)分鐘的連貫視頻;Imagen Video是應(yīng)用于視頻序列的擴(kuò)散模型,在文本理解方面建立在大型Transformer語(yǔ)言模型之上,在高保真圖像生成方面依賴于擴(kuò)散模型,因此兼具高逼真度和極強(qiáng)的語(yǔ)言理解能力。
谷歌Imagen Video和Phenaki團(tuán)隊(duì)一直在合作制作AI生成的超級(jí)分辨率視頻,將Imagen Video和Phenaki模型結(jié)合起來(lái)時(shí),能得到兩全其美的結(jié)果:在幀級(jí)的超級(jí)分辨率和時(shí)間上的一致性。
02.寫小說(shuō)、3D合成、音頻生成,AI樣樣在行
除了從文本生成視頻外,谷歌也分享了其用于協(xié)作的可控文本生成項(xiàng)目LaMDA Wordcraft,可幫助產(chǎn)生一些新的想法或重寫句子,來(lái)為作家提供協(xié)作靈感。
為了測(cè)試LaMDA Wordcraft的能力,谷歌與專業(yè)作家合作組成研討會(huì),讓他們使用探索寫作的文本生成項(xiàng)目Wordcraft編輯器來(lái)創(chuàng)作一卷短篇小說(shuō),來(lái)試驗(yàn)AI文本生成的能力。
在從文本到3D合成方面,谷歌研發(fā)了一個(gè)預(yù)訓(xùn)練的2D文本到圖像的擴(kuò)散模型DreamFusion。給定一個(gè)描述生成,DreamFusion就能生成具有高保真外觀、深度和法線且能夠在不同光照條件下進(jìn)行渲染的3D模型。
在音頻生成方面,谷歌有一個(gè)全新的音頻生成框架AudioLM。這是一個(gè)純音頻模型,在沒(méi)有任何文字或音樂(lè)符號(hào)表示的情況下進(jìn)行訓(xùn)練,可以只根據(jù)簡(jiǎn)短的音頻樣本學(xué)習(xí)生成逼真的、高質(zhì)量的語(yǔ)音和音樂(lè)。
谷歌還宣布推出第二代AI Test Kitchen,為人們提供一個(gè)了解、體驗(yàn)和反饋其新興生成性AI技術(shù)的途徑。第二代AI Test Kitchen將通過(guò)兩個(gè)演示來(lái)進(jìn)一步展示從文本到圖像的生成。
第一個(gè)演示是“城市夢(mèng)想家”(City Dreamer),它使用谷歌對(duì)話引擎LaMDA和谷歌的圖像模型組合,使用戶能快速構(gòu)建個(gè)性化的城市景觀;第二個(gè)演示叫“Wobble”,使用谷歌的圖像模型LaMDA和谷歌最新的2D-3D休閑動(dòng)畫技術(shù),可以創(chuàng)造能移動(dòng)、跳舞的友好怪物。
這些體驗(yàn)將在AI Test Kitchen中陸續(xù)登陸,用戶可從Play Store或App Store獲得該應(yīng)用,并開(kāi)始使用LaMDA。
03.推出“一千種語(yǔ)言計(jì)劃”讓AI助攻全球語(yǔ)言
語(yǔ)言是人們互相交流和理解周圍世界的核心介質(zhì)。2017年,谷歌開(kāi)發(fā)了Transformer語(yǔ)言模型,它被視作所有現(xiàn)代語(yǔ)言模型的“鼻祖”,此后谷歌一直專注于具有突破性的語(yǔ)言模型研究,諸如谷歌翻譯等應(yīng)用已經(jīng)支持幾百種語(yǔ)言,谷歌還宣布新增對(duì)24種語(yǔ)言的支持。
但這些仍然遠(yuǎn)遠(yuǎn)不夠。世界上有超過(guò)7000種語(yǔ)言,而目前互聯(lián)網(wǎng)只能很好地支持其中一小部分。
為了向全球更廣泛的地區(qū)提供基于AI的語(yǔ)言技術(shù),谷歌推出“一千種語(yǔ)言計(jì)劃”,以支持全球1000種最常用語(yǔ)言的模型。谷歌將這比作“登月行動(dòng)”,希望以此為世界各地邊緣化群體的數(shù)十億人帶去更大的包容性。
這個(gè)計(jì)劃覆蓋了谷歌長(zhǎng)期在多模態(tài)、與更多語(yǔ)言群體合作等方面的努力。當(dāng)前谷歌在研究更先進(jìn)的模型,能直接處理基于語(yǔ)言的信息,跨越圖像、視頻和語(yǔ)音等多種模態(tài)。
例如,谷歌已經(jīng)開(kāi)發(fā)了一個(gè)通用語(yǔ)言模型(Universal Speech Model),它支持400多種語(yǔ)言,是迄今覆蓋語(yǔ)種最多的語(yǔ)言模型。
谷歌正與世界各地的語(yǔ)言群體合作,以獲得語(yǔ)言數(shù)據(jù),最近宣布在Gboard上支持另外9種非洲語(yǔ)言的語(yǔ)音輸入,并在南亞積極收集所有方言和語(yǔ)言的代表性音頻樣本。
與此同時(shí),谷歌計(jì)劃在YouTube、GBoard、Translate等產(chǎn)品中改進(jìn)語(yǔ)言支持,方便人們基于不同語(yǔ)種使用這些技術(shù),并找到相關(guān)內(nèi)容。
04.AI預(yù)警洪水,能精確大約100米的范圍
洪水每年在世界各地奪走數(shù)以萬(wàn)計(jì)的生命,造成數(shù)十億美元的損失。而可靠的早期預(yù)警系統(tǒng)已被證明可減少43%的死亡、35-50%的經(jīng)濟(jì)損失。
谷歌早在2017年就啟動(dòng)洪水預(yù)測(cè)項(xiàng)目,通過(guò)引入AI技術(shù),為人們提供準(zhǔn)確而詳細(xì)的警報(bào),以抵御每年洪水帶來(lái)的災(zāi)難性損失。谷歌洪水預(yù)測(cè)系統(tǒng)能告訴人們哪些地區(qū)將受到影響,以及每個(gè)點(diǎn)位的水深是多少,可精確到大約100米的范圍,即大概精確到一個(gè)村莊或一個(gè)社區(qū)。
人們能直接在谷歌地圖(Google Maps)上看到這些信息,及時(shí)做出響應(yīng)。
此前該系統(tǒng)主要用在印度和孟加拉國(guó)。去年,谷歌向印度和孟加拉國(guó)的2300萬(wàn)人發(fā)送了1.15億條有關(guān)洪水的通知,并引導(dǎo)他們關(guān)注Google Search和Maps上的洪水預(yù)警。在谷歌的支持下,耶魯大學(xué)經(jīng)濟(jì)增長(zhǎng)研究中心進(jìn)行的初步研究表明,其通知使收到洪水預(yù)警的人數(shù)增加了2倍,采取保護(hù)行動(dòng)的人數(shù)也增加了3倍。
借助遷移學(xué)習(xí)AI技術(shù),谷歌宣布該系統(tǒng)將擴(kuò)展到18個(gè)新的國(guó)家,包括巴西、哥倫比亞、斯里蘭卡、布基納法索、喀麥隆、乍得、剛果民主共和國(guó)、象牙海岸、加納、幾內(nèi)亞、馬拉維、尼日利亞、塞拉利昂、安哥拉、南蘇丹、納米比亞、利比里亞、南非等。
此外,谷歌還在全球范圍內(nèi)推出新的模型Google FloodHub,該平臺(tái)可以顯示洪水可能發(fā)生的時(shí)間和地點(diǎn)。
05.實(shí)時(shí)火災(zāi)追蹤,及時(shí)撲救野火
因氣候變化,野火近年來(lái)持續(xù)惡化。每年,野火造成的損失高達(dá)26億美元,并產(chǎn)生約2千兆噸的二氧化碳排放。
谷歌野火團(tuán)隊(duì)使用衛(wèi)星圖像來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,使其能從空間和時(shí)間的維度去識(shí)別野火,并及時(shí)告知其用戶野火發(fā)生的地點(diǎn)。其野火追蹤項(xiàng)目已在澳大利亞、美國(guó)、加拿大和墨西哥上線。
目前谷歌正在研究的3個(gè)模型:
1、實(shí)時(shí)火災(zāi)追蹤:其模型可實(shí)時(shí)識(shí)別現(xiàn)有火災(zāi)的范圍。該模型自2021年11月在澳大利亞的Google SOS警報(bào)上推出,2022年7月在美國(guó)、加拿大和墨西哥的Google SOS警報(bào)上推廣。
2、火災(zāi)蔓延預(yù)測(cè):該模型旨在預(yù)測(cè)現(xiàn)有的火災(zāi)將如何演變,以便為正在進(jìn)行野火撲救的小組提供如蔓延方向預(yù)測(cè)等的業(yè)務(wù)信息。
3、早期野火探測(cè):此模型能在火災(zāi)出現(xiàn)后不久就發(fā)現(xiàn)火災(zāi),以便在火勢(shì)失控前通知有關(guān)部門。
06.為產(chǎn)婦和視網(wǎng)膜疾病篩查帶來(lái)福音
面向醫(yī)療健康,谷歌正通過(guò)引入AI技術(shù),幫助呵護(hù)產(chǎn)婦健康和加強(qiáng)糖尿病視網(wǎng)膜病變等眼部疾病問(wèn)題的篩查。
上個(gè)月,谷歌在國(guó)際學(xué)術(shù)頂刊Nature的子刊Nature Communications Medicine上發(fā)表了一篇論文,展示了AI如何幫助讀取和分析低成本超聲設(shè)備的數(shù)據(jù)。這可以向準(zhǔn)父母提供他們所需的信息,以便其在孕期更早地發(fā)現(xiàn)問(wèn)題。
此外,谷歌還與美國(guó)西北大學(xué)醫(yī)學(xué)院合作開(kāi)發(fā)AI,協(xié)助護(hù)士和助產(chǎn)士輕松地收集和解釋超聲圖像。該工具有能力確定胎兒的位置和胎齡,而且可以在沒(méi)有網(wǎng)絡(luò)連接的設(shè)備上運(yùn)行,對(duì)醫(yī)護(hù)人員在懷孕早期發(fā)現(xiàn)問(wèn)題很有幫助。
與此同時(shí),谷歌也在加強(qiáng)眼科篩查計(jì)劃,利用其自動(dòng)視網(wǎng)膜疾病評(píng)估工具(ARDA)開(kāi)展了大量工作,已經(jīng)成功篩查了超15萬(wàn)名患者,其中有超過(guò)一半的篩查是今年完成的。
谷歌還在開(kāi)發(fā)用手機(jī)監(jiān)測(cè)呼吸和心率的技術(shù)。
07.結(jié)語(yǔ):致力于研發(fā)負(fù)責(zé)任的AI
推進(jìn)AI研究的旅程中,在幫助人們解決重要現(xiàn)實(shí)問(wèn)題的同時(shí),谷歌一向?qū)Φ赖录s束和社會(huì)影響非常謹(jǐn)慎。
在本次年度AI活動(dòng)上,谷歌也再度重申了對(duì)負(fù)責(zé)任的AI的重視,強(qiáng)調(diào)如果在沒(méi)有任何原則或道德指導(dǎo)的情況下開(kāi)發(fā)生成式AI技術(shù),這可能帶來(lái)很大風(fēng)險(xiǎn),比如被惡意行為者利用去做壞事。
因此,谷歌研究團(tuán)隊(duì)正積極地將谷歌AI原則(Google AI Principles)融入其中,尤其注重3個(gè)關(guān)鍵方面:
1、“可控”:確保制造的工具有益于人類,模型和項(xiàng)目需要適當(dāng)?shù)娜藶榭刂?,以確保用戶安全,例如文本生成圖像模型使用了保障數(shù)據(jù)集來(lái)防止生成有害的圖像。
2、制造能夠檢測(cè)生成式AI的工具:谷歌在AudioLM項(xiàng)目中訓(xùn)練了一個(gè)分類器,能以近99%的準(zhǔn)確率檢測(cè)合成語(yǔ)音。
3、與世界各地的社區(qū)積極合作:開(kāi)源對(duì)于谷歌來(lái)說(shuō)是很重要的一部分,谷歌計(jì)劃制定一套開(kāi)源政策,以適應(yīng)其AI原則。谷歌還在積極與藝術(shù)家和創(chuàng)作者等合作。