文|智東西 ZeR0
編輯|漠影
谷歌正試圖訓(xùn)練出更像人類的機(jī)器人。
智東西8月17日報(bào)道,谷歌剛剛公布一項(xiàng)重磅研究進(jìn)展:通過結(jié)合更強(qiáng)大的人工智能(AI)大型語言模型,進(jìn)一步提高機(jī)器人的“智商”。
研究人員表示,這是第一次將大型語言模型集成到機(jī)器人中,“是一種非常不同的范式”。
就像人類一樣,機(jī)器人能響應(yīng)完整的命令。換句話說,你不再需要像以前那樣分步地發(fā)出一連串簡短指令,一步一步指導(dǎo)機(jī)器人的每個動作。
谷歌研究人員做了個演示,對機(jī)器人說:“我餓了,你能給我點(diǎn)零食嗎?”
接著,機(jī)器人在自助餐廳中搜索一番,然后打開一個抽屜,找到一袋薯片并將它拿給研究人員。
當(dāng)然了,拿汽水也是不在話下。
▲機(jī)器人演示拿起物品的能力
這是一項(xiàng)雄心勃勃的技術(shù)突破,為多用途機(jī)器人鋪平了道路,使其像以往的掃地機(jī)器人、巡邏機(jī)器人等單一任務(wù)機(jī)器人一樣易于控制。
谷歌在本周二發(fā)布的博文中,詳細(xì)介紹了這項(xiàng)研究進(jìn)展,通過結(jié)合更復(fù)雜的語言模型,機(jī)器人執(zhí)行命令的成功率從61%提高至74%。
用大模型提高理解能力,讓機(jī)器人不再是“鐵憨憨”
指揮機(jī)器人干活不是什么新奇的事,但要讓機(jī)器人能夠理解你的命令背后的意圖,那就要考驗(yàn)它的“大腦”好不好用了。
比如,當(dāng)你問機(jī)器人:“我把飲料灑了,你能幫忙嗎?”谷歌機(jī)器人可以迅速篩出適配指令的合適行動,然后從廚房拿塊清潔海綿來。
但假如你只是驚呼:“完蛋!我的飲料!”那么常見的機(jī)器人通常毫無反應(yīng),這時候,如果有一個智能機(jī)器人聽出你的話外音,主動幫你清潔,那它才是真正聰明的機(jī)器人。
這些看似簡單的感知技能,實(shí)際上是最具計(jì)算挑戰(zhàn)性的任務(wù)類型。
以前,機(jī)器人系統(tǒng)只能執(zhí)行簡短、明確的指令,例如“拿起一個蘋果”、“往前走兩步”。
機(jī)器人往往在明確具體的任務(wù)和獎勵下表現(xiàn)最好,但在學(xué)習(xí)執(zhí)行多步驟任務(wù)和推理抽象的、模棱兩可的指令方面遇到困難。
比如,你問機(jī)器人:“我剛剛鍛煉過,可以給我拿一份健康的零食?”機(jī)器人可能很難理解這句話里的細(xì)微表達(dá)差別和微妙之處。
雖然近年來大型語言模型進(jìn)展飛速,取得許多令人印象深刻的結(jié)果,很多語言模型在特定領(lǐng)域的知識儲備已經(jīng)遠(yuǎn)超人類,但很多語言模型的訓(xùn)練并沒有基于物理世界的數(shù)據(jù),通常不會跟環(huán)境產(chǎn)生直接交互,也不會觀察其響應(yīng)的結(jié)果。
這可能導(dǎo)致語言模型生成的指令,會讓在現(xiàn)實(shí)環(huán)境中運(yùn)行的機(jī)器人做出不合邏輯、不切實(shí)際或者不安全的行動。
我們還用剛才提到的問題舉例,問機(jī)器人:“我把飲料灑了,你能幫忙嗎?”
經(jīng)典的OpenAI大模型GPT-3會提供一個建議:“您可以嘗試使用真空吸塵器?!?/p>
谷歌AI系統(tǒng)LaMDA會回答:“您想讓我?guī)兔φ覀€清潔工具嗎?”
另一個谷歌FLAN語言模型則會直接道歉:“對不起,我不是故意的。”這顯然是個沒用的回應(yīng)。
因此,谷歌研究人員提出設(shè)想,有沒有一種有效的方法,能夠?qū)⒏呒壵Z言模型的語言理解能力和機(jī)器人系統(tǒng)擅長的處理感知和交互能力相結(jié)合,同時利用兩者的優(yōu)勢?
這就是谷歌正與谷歌母公司Alphabet的機(jī)器人子公司Everyday Robots合作研發(fā)的新方法——PaLM-SayCan。
用語言模型做“大腦”,機(jī)器人充當(dāng)“手”與“眼”
谷歌研究人員稱,將PaLM-SayCan集成到機(jī)器人中后,機(jī)器人通過使用思維鏈提示和執(zhí)行請求所需的分步解決方案,能更好地執(zhí)行復(fù)雜、抽象的任務(wù),根據(jù)自身能力權(quán)衡接下來最合適的執(zhí)行步驟,并實(shí)現(xiàn)高度可解釋的行動結(jié)果。
“我們發(fā)現(xiàn)它(機(jī)器人)甚至能處理16個步驟的指令?!毖芯咳藛T說。
引入PaLM-SayCan后,語言模型可以幫助機(jī)器人更好地理解運(yùn)用到高級語義知識、需要進(jìn)行推理的指令,使其與人類、與物理環(huán)境的互動更自然。反過來,機(jī)器人可以充當(dāng)語言模型的手和眼,通過與真實(shí)環(huán)境的不斷交互為語言模型提供更多的經(jīng)驗(yàn)。
具體是怎么做的呢?
PaLM-SayCan方法使用PaLM語言模型(Say)中包含的知識來確定和評估對高級指令有效的動作,它還用到Affordance功能(Can),來支持現(xiàn)實(shí)世界并確定在給定環(huán)境下可執(zhí)行哪些操作。
這個系統(tǒng)可以看作是用戶和機(jī)器人之間的對話平臺。用戶首先發(fā)出一個指令,語言模型將其拆解成方便機(jī)器人執(zhí)行的一系列明確步驟。
然后,機(jī)器人對這些步驟進(jìn)行篩選,通過評估確定在其當(dāng)前狀態(tài)和環(huán)境下最可行的行動計(jì)劃,從而完成相應(yīng)任務(wù)。
該模型通過將兩個概率相乘,來確定特定技能成功學(xué)習(xí)的概率:一是task-grounding,即技能語言描述;二是world-grounding,即當(dāng)前技能的可行性。
由于PaLM-SayCan方法擁有較好的可解釋性,用戶可以通過查看單獨(dú)的語言和可視性分?jǐn)?shù),來輕松理解決策過程。
灑了飲料,機(jī)器人幫忙清理分幾步?
如可視化界面所示,PaLM-SayCan執(zhí)行復(fù)雜任務(wù)的行為是可解釋的,這將使機(jī)器人的交互過程更加安全可控。
比如當(dāng)你灑了飲料,請求機(jī)器人幫忙時,你可以看到它是如何做出決定,為執(zhí)行任務(wù)選擇最合適的步驟的:找到可樂罐,拾起可樂罐,走到垃圾桶旁邊,放下可樂罐,找到一塊海綿,拾起海綿,走向桌子,放下海綿……
藍(lán)色顯示的是語音模型分?jǐn)?shù),即語言模型判斷技能有用的概率;紅色是affordance分?jǐn)?shù),即系統(tǒng)成功執(zhí)行技能的可能性;綠色顯示的是用于最終決定執(zhí)行技能的綜合分?jǐn)?shù)。
PaLM-SayCan方法將語言模型的概率和價(jià)值函數(shù)(VF)的概率相結(jié)合,以選擇下一個要執(zhí)行的技能,重復(fù)這個過程,直至高級指令成功完成。
研究人員使用基于圖像的行為克?。˙C)來訓(xùn)練語言條件策略和基于時間差異(TD)的強(qiáng)化學(xué)習(xí)方法來訓(xùn)練價(jià)值函數(shù)。
智能體技能庫中,訓(xùn)練策略和價(jià)值函數(shù)的每個技能都會被定義為一個具有簡短語言描述的策略,用嵌入表示,以及一個指示從機(jī)器人當(dāng)前狀態(tài)完成技能概率的affordance函數(shù)。
為了學(xué)習(xí)affordance函數(shù),研究人員使用稀疏獎勵函數(shù),設(shè)置為1.0表示成功執(zhí)行,0.0表示未成功。
訓(xùn)練策略方面,研究人員從10個機(jī)器人在11個月內(nèi)執(zhí)行的68000次演示中收集了數(shù)據(jù),并從一組自主學(xué)習(xí)的策略片段中篩選了12000次成功的片段,然后在Everyday Robots模擬器用使用MT-Opt學(xué)習(xí)語言條件值函數(shù),通過使用演示來引導(dǎo)模擬策略的性能,以提供初步成功,再通過模擬中的在線數(shù)據(jù)收集來持續(xù)改進(jìn)強(qiáng)化學(xué)習(xí)性能。
走向通用機(jī)器人時代
為了測試其方法,研究人員使用了與PaLM配對的Everyday Robots機(jī)器人,將機(jī)器人放在有各種常見物體的廚房環(huán)境中,用101條指令對其進(jìn)行測試。
這些指令不是簡單的命令式查詢,而是涵蓋了語言常有的歧義性和復(fù)雜性。
研究人員用兩個指標(biāo)來評估系統(tǒng)的性能:(1)規(guī)劃成功率,表示機(jī)器人是否為指令選擇了正確的技能;(2)執(zhí)行成功率,表示機(jī)器人是否成功執(zhí)行了指令。
他們比較了PaLM和FLAN兩種谷歌大型語言模型、有和沒有affordance grounding以及直接使用自然語言運(yùn)行的底層策略。
結(jié)果顯示,使用帶有affordance grounding的PaLM(即谷歌PaLM-SayCan)系統(tǒng)在84%的時間內(nèi)選擇了正確的技能序列,并在74%的時間內(nèi)成功執(zhí)行這些技能序列。
▲當(dāng)與PaLM結(jié)合使用時,SayCan展示了101條測試指令中84%的成功規(guī)劃
與FLAN以及沒有robotic grounding的PaLM相比,PaLM-SayCan的錯誤減少了50%。同時,相較此前的FLAN-SayCan方法,PaLM-SayCan的執(zhí)行成功率提升了13%。
“這特別令人興奮,因?yàn)樗碇覀兊谝淮慰梢钥吹秸Z言模型的進(jìn)步如何轉(zhuǎn)化為機(jī)器人技術(shù)的類似改進(jìn)?!惫雀柩芯咳藛T在技術(shù)博客中寫道。
研究人員相信,這項(xiàng)研究將推動從執(zhí)行簡短、明確的制定命令的工業(yè)機(jī)器人,過渡到可以處理更復(fù)雜和抽象命令的通用機(jī)器人時代。
不過由于谷歌沒有公開101個命令的完整列表,所以這些命令是否覆蓋家庭機(jī)器人所需理解的絕大部分語言廣度和復(fù)雜性,還不好下定論。
谷歌研究人員還開源了一個機(jī)器人模擬設(shè)置,希望提供寶貴資源用于將機(jī)器人學(xué)習(xí)與高級語言模型相結(jié)合的未來研究。
GitHub鏈接:http://say-can.github.io/
未來,他們希望更好地了解利用機(jī)器人的真實(shí)世界經(jīng)驗(yàn)獲得的信息來改進(jìn)語言模型,以及自然語言在多大程度上是編程機(jī)器人的正確本體。
科技巨頭對機(jī)器人研發(fā)興趣濃厚
谷歌母公司Alphabet對研發(fā)機(jī)器人布局已久。
2013年,谷歌一連收購了幾家知名機(jī)器人公司,包括機(jī)器人領(lǐng)域“最出圈”的波士頓動力。不過后來波士頓動力幾經(jīng)轉(zhuǎn)手,先是被谷歌賣給日本電信和科技投資巨頭軟銀,后來又被軟銀賣給了韓國汽車巨頭現(xiàn)代。
此前Everyday Robotics打造的機(jī)器人已經(jīng)在谷歌內(nèi)部執(zhí)行一些簡單任務(wù),比如送零食、倒垃圾、擦拭柜臺。
Everyday Robotics項(xiàng)目仍處于起步階段,機(jī)器人行動比較緩慢,做事也沒那么果斷靈巧。不過隨著這些機(jī)器人借助谷歌大型語言模型提高理解能力,它們將進(jìn)一步提高執(zhí)行力。
除了谷歌外,多家大型科技公司都對機(jī)器人技術(shù)展現(xiàn)出濃厚的興趣。
一個典型的代表是美國電商巨頭亞馬遜,它在倉庫中使用了許多機(jī)器人,并且正在試驗(yàn)無人機(jī)送貨。這個月初,亞馬遜還宣布計(jì)劃以17億美元收購掃地機(jī)器人鼻祖iRobot,此次收購也將成為亞馬遜史上第四大巨額收購交易。
就在上周,國內(nèi)智能手機(jī)制造商小米公布了其研發(fā)的人形機(jī)器人“鐵大”,去年它還推出了一款機(jī)器狗“鐵蛋”。
除此之外,美國電動車龍頭特斯拉也在研發(fā)通用機(jī)器人,并將在9月30日發(fā)布其首款人形機(jī)器人“擎天柱”原型機(jī)。
據(jù)特斯拉創(chuàng)始人兼CEO馬斯克透露,“擎天柱”將是一款非常友好的機(jī)器人,能替代人類執(zhí)行一些從事危險(xiǎn)、重復(fù)、無聊的任務(wù),包括拿扳手給特斯拉電動車裝螺絲,或者幫人類買菜、做飯、照顧老人,而且未來其成本比汽車還要便宜。
▲特斯拉“擎天柱”的部分參數(shù)
結(jié)語:距離高智能機(jī)器人,還有很長的路要走
多年來,用AI技術(shù)訓(xùn)練機(jī)器人屢有突破,但大的進(jìn)展仍然緩慢。而引入語言模型的方法,或許可以幫助機(jī)器人進(jìn)一步提高解決復(fù)雜問題的能力,從而替代人類從事更多重復(fù)性勞動。
谷歌的這一探索,展示了機(jī)器人技術(shù)與大型語言模型進(jìn)步結(jié)合的更多可能性。
目前真正大范圍滲透進(jìn)人們?nèi)粘I羁臻g的家庭機(jī)器人,僅有清潔機(jī)器人這個品類,但在AI、激光雷達(dá)等技術(shù)的輔助下,隨著機(jī)器人提高視覺、導(dǎo)航等技能,更多新型機(jī)器人將進(jìn)入家庭場景。
當(dāng)然,迄今的機(jī)器人研發(fā),距離我們想象的十項(xiàng)全能“機(jī)器人管家”,還有很長的路要走。
語言模型固然可以為機(jī)器人提供更好的步驟規(guī)劃評估和選擇,但它們還做不到事無巨細(xì)地提供所有信息,比如不能告訴機(jī)器人打開冰箱時應(yīng)施加多大的力。谷歌研究人員也暫時沒有將PaLM-SayCan商業(yè)化的計(jì)劃。
圍繞機(jī)器人創(chuàng)新技術(shù)及商業(yè)化落地成果,智東西將在明日舉行的2022世界機(jī)器人博覽會現(xiàn)場發(fā)來更多一線觀察報(bào)道,歡迎關(guān)注。