正在閱讀:

今年,是人形機器人的“iPhone時刻”嗎?

掃一掃下載界面新聞APP

今年,是人形機器人的“iPhone時刻”嗎?

一個浪潮將是具身智能,而通用機器人是最理想的載體。

文|經(jīng)緯創(chuàng)投

最近,人形機器人變得非常火熱。2023世界機器人大會近日在北京開幕,人潮涌動。同時,宇樹科技、智元機器人等創(chuàng)業(yè)公司,相繼發(fā)布了自己的人形機器人,當這些站立行走,能跑能跳的機器人真真切切地出現(xiàn)在人們面前時,把人們的期待推向了最高潮。

機器人一直是說起來容易,很科幻,但做起來非常難。哪怕是在不少工廠的流水線里,機器人還是很難適應很多復雜場景。不過自去年底,特斯拉發(fā)布了人形機器人Optimus(擎天柱)以來,人形機器人賽道就在逐漸升溫。

那么,為什么人形機器人火了?現(xiàn)在到技術爆發(fā)的臨界點了嗎?相比于工業(yè)機器人(是一個比較成熟的賽道,更像傳統(tǒng)機械設備),這一波大家對機器人的想象,與工業(yè)機器人有什么底層不同?

首先,我們總結說結論,人形機器人賽道之所以變熱,核心是智能泛化能力大幅加強,讓通用機器人成為可能。以前機器人行業(yè)之所以迭代得很慢,是因為每學一套新動作,就需要重新編程一次,只是“機械的自動化”。而現(xiàn)在有了智能泛化能力的突破,甚至只需要語音控制,機器人就能實現(xiàn)新功能,這是從自動化到智能化的底層轉(zhuǎn)變,機器人的通用性被大大增強。

英國機器人公司Engineered Arts的人形機器人Ameca,在接入Stable Diffusion之后,可以完成一些簡筆畫,比如畫一只貓。圖片來源:Engineered Arts

基于這個認知,我們還可以延展出很多新問題:

當機器人觸達技術爆發(fā)臨界點,更智能的機器人能用在哪里?

機器人是否要做成“人形”?

訓練數(shù)據(jù)是瓶頸,數(shù)據(jù)還能從哪里來?

今天這篇文章,我們就來探討以上這些問題,不過人形機器人是一個高速發(fā)展中的新賽道,很多問題還沒有準確答案,對于一些有爭議的部分,歡迎在評論區(qū)聊聊,Enjoy:

人形機器人是一個大賽道,能帶動眾多細分賽道。以特斯拉機器人Optimus為代表的人形機器人硬件全景圖。圖片來源:中信證券

01 當機器人觸達技術爆發(fā)臨界點,更智能的機器人能用在哪里?

曾經(jīng),機器人是一個迭代速度不算太快的領域,現(xiàn)在的汽車工廠里已有很多工業(yè)機器人,并且有著幾十年的應用歷史,但基本都是非通用智能機器人。

其中的瓶頸在于,像工業(yè)機器人這樣的非通用智能機器人(往往只是一個機械臂),是在特定場景里做特定任務,各種動作和反應的算法都是寫定的,一旦遇到新的情況或環(huán)境,如果沒有預先寫好算法,就會立即變成“智障”。

如今有可能出現(xiàn)真正的通用機器人,這也極大擴展了機器人潛在的應用場景。以往工業(yè)機器人只能在流水線的單點上,比如擰好某個螺絲,或是組裝好某個部件,但如今有了通用機器人之后,只需要讓機器人學會安裝邏輯和評估標準就可以了,并且它不僅可以擰好螺絲,當螺絲用完了還可以自己從倉庫里取來,或是給機器人裝上靈巧手,它就可以使用一些工具,來處理螺絲之外更復雜的事情。

此外,結合LLM我們還可以實現(xiàn)語音控制,只需要說出“請給我拿杯水”,先把語音轉(zhuǎn)換成代碼,再把代碼轉(zhuǎn)換成機器人的動作。這不是影視劇里很遙遠的事情,而是正在發(fā)生的。今年谷歌發(fā)布了Robotics Transformer-2(RT-2),微軟發(fā)布了“ ChatGPT for Robotics ”論文,給整個機器人行業(yè)帶來了轟動。

今年的這些新進展,與以前“每做一套新動作,就需要重新編程一次”的機器人,有著天壤之別。未來無論是在工廠車間,還是商場、家庭,都很有可能出現(xiàn)一個通用機器人,它能適應不同的環(huán)節(jié),不需要重新編程就能在不同任務之間切換自如。

目前,對于大多數(shù)通用機器人創(chuàng)業(yè)公司來說,第一目標還不是ToC,而是ToB,比如工業(yè)或是商業(yè)場景。先在B端場景中打磨好能力,再最終應用到C端,是不少機器人公司的計劃。

很多公司都把汽車生產(chǎn)作為首要場景。汽車工廠規(guī)模很大,較早實現(xiàn)自動化,其中很多環(huán)節(jié)已經(jīng)形成流水線用工業(yè)機器人替代,但仍有不少環(huán)節(jié)需要人工操作。比如在汽車工廠的總裝車間,仍然需要大量人力,人形機器人可以替代這些環(huán)節(jié),并非替代已經(jīng)通過工業(yè)機器人實現(xiàn)自動化的環(huán)節(jié)。

如果按照馬斯克的計劃,特斯拉的第一批機器人主要在B端應用,替代那些危險、無聊、重復的工作,或是人們不想做的工作。第二批大規(guī)模使用的機器人,會擁有在現(xiàn)實世界中的導航能力,也是復用特斯拉電動車的視覺導航技術,無需特定指令也能做有用的事;第三批則是10年左右,人們可以在家里使用機器人。

除了汽車工廠,還有3C的組裝、檢測等環(huán)節(jié);以及在商業(yè)場景中,比如零售業(yè)的貨架管理、清潔等,也仍有需要大量人工的場景。隨著社會老齡化及人力成本的攀升,將有不小的勞動力缺口需要填補。

當然,有些場景也并非一定需要人形機器人,而是根據(jù)需求來選擇。比如宇樹科技創(chuàng)始人兼CEO王興興曾說,四足機器人與雙足機器人相比,具備更高的載荷能力和極強的平衡能力,也更易于控制、設計和維護,在工業(yè)端和消費端等都有廣泛的應用場景,尤其能在一些危險場景代替人類進行作業(yè)。

宇樹科技的機器狗可用于消防。圖片來源:宇樹科技

鴻海、軟銀投資的日本機器人初創(chuàng)公司Telexistence,可作為商超貨架的補貨機器人

不過,今天的通用機器人,離真正商業(yè)化落地還有諸多障礙。最明顯的就是成功率、執(zhí)行速度和精度都還不太夠。比如谷歌的RT-2比起RT-1,執(zhí)行成功率提高到了80%,但在實機演示中,還是錯誤地識別了一罐檸檬味蘇打水,說成了“橘子味”;以及被問到桌子上有什么水果時,機器人回答成“白色”,但實際是香蕉。谷歌解釋說,因為WiFi臨時中斷,機器人使用了緩存的答案來回答。雖然80%的準確率在一些場景夠用,但在另一些需要精度的場景仍然不夠,比如一些精密儀器的操作等等。

當然,我們說了這么多具身智能、通用機器人,也并不是說原來的工業(yè)機器人領域就沒有機會了,只是邏輯不同。在傳統(tǒng)機械設備領域,仍有大量機器人零部件創(chuàng)新,和國產(chǎn)替代的機會。比如工業(yè)機器人的核心零部件減速器,就長期被日本和德國公司壟斷;工業(yè)機器人整體的國產(chǎn)化率也僅有35%,特別是在大六軸、汽車3C、焊接等工業(yè)機器人細分賽道,國產(chǎn)化率都是偏低的,結合智能化仍然有成長空間與創(chuàng)新潛力。

02 機器人是否要做成“人形”?

在無數(shù)科幻影視作品中,人形機器人一直才是人們對機器人的終極想象,比起工業(yè)機器人,人形機器人是一種更高維的存在。但由于實現(xiàn)難度太大,一直不是機器人行業(yè)的主要形態(tài),直到最近1年特斯拉的人形機器人發(fā)布,才成為市場焦點。

市場也存在很多質(zhì)疑聲:到底我們需不需要人形機器人?既然難度這么大,到底需要多少年才能在現(xiàn)實生活中落地?是否應該先從機械狗、多輪底盤+機械臂等形態(tài)入手,而不是一上來就做人形?

當然這個問題還沒有答案,我們看到谷歌搭載RT-2的機器人,就是四個輪子作為底盤+一個機械臂,已經(jīng)能實現(xiàn)很多功能,比如撿起小東西、開窗戶或是垃圾篩選。這種單臂、輪式服務機器人不需要靈巧手(利用空心杯電機實現(xiàn)的仿人手設計)、不需要仿人腿的運動控制系統(tǒng),也能實現(xiàn)很多家庭、工廠場景的功能。當然它也會有限制,比如不能上下樓梯。

Google的機器人就是輪式底盤+單臂+攝像頭的形態(tài)。圖片來源:Google Deepmind

當然,我們的觀點是人形肯定是終極形態(tài),因為我們相信最終機器人是會進入千家萬戶的。但根據(jù)不同場景需求,其他形態(tài)的機器人也會共存,比如不一定是雙足雙臂,更早到來的可能是輪式單臂。

人形的好處是:首先是應用范圍。如果用終局思維來思考,人形機器人的應用范圍肯定是最廣的,因為人形才是最適合社會中所有場景的形態(tài),我們所有的建筑、工具等等,都是基于人類的身形而設計的,所以無需改變場景來適應機器人,就能直接使用人類社會中所有工具。這也符合馬斯克所提出的愿景,他希望今后人類不想干的事全都可以交給機器人來干,甚至發(fā)掘出目前我們還預料不到的用途。

比如最典型的,就是人類的腿和手,在仿生步態(tài)下,機器人的運動能力比傳統(tǒng)履帶、四輪、雙輪機器人都有大幅提升,機器人可以上下樓,可以跳躍過障礙物等等。對于手來說,基于空心杯電機的靈巧手,可以實現(xiàn)雙手配合和工具替換,這比起傳統(tǒng)的工業(yè)機器人,能用更廣泛的人類工具,技能更廣。

特斯拉使用空心杯電機設計的靈巧手。圖片來源:東吳證券

其次如果考慮交互,“人形”才能傳遞出的肢體語言、面部表情等等信息。比如在梅拉賓法則中,心理學家就在強調(diào)肢體語言的作用。肢體語言也最符合人類的認知,人類無需重新學習任何新東西,就能輕松理解機器人的動作。在結合大語言模型之后,能夠更好的與人類交互。

例如英國Engineered Arts 公司的人形機器人Ameca,輸入了大量真人表情數(shù)據(jù),通過立體3D打印機制作出精確的模具,實現(xiàn)了生動的面部表情和肢體語言。

英國機器人公司Engineered Arts的人形機器人Ameca,能夠在橡膠皮膚上表現(xiàn)出超過 62 種面部表情,這是Ameca著名的“蘇醒時刻”

我們都知道人形有這么多好處,但對人形機器人最大的制約,還是軟硬件技術的高難度,小到每一個關節(jié)的設計,再到運動控制、對環(huán)境的感知等等,每一個環(huán)節(jié)都存在技術難題,綜合在一起更是對系統(tǒng)的集成度、魯棒性要求很高。

比如運動控制的標桿波士頓動力,已經(jīng)成立了31年,歷經(jīng)被谷歌收購、被軟銀收購、被韓國現(xiàn)代集團收購,一直都在不斷投入,雖然實現(xiàn)了“跑酷”等炫酷的功能,但背后是不計成本的投入、功耗極高、噪音很大,離量產(chǎn)落地還差很遠。

波士頓動力的機器人跑酷演示。視頻來源:波士頓動力YouTube頻道

不過,如果一家公司把最終目標定位成人形機器人,不代表它的產(chǎn)品只有一款人形機器人。在高難度的技術研發(fā)中,無論是移動、抓取還是視覺感知等等,都可以在這個過程中迭代出新的產(chǎn)品,而最終把各項技術組合在一起,簡單來說就是:人形機器人是最難的機器人形態(tài),誰能做好人形,誰就也能做好其他形態(tài)的機器人。

總之,機器人的通用性和智能化是接下來的重點,但不一定非要是人形,當下還需要看場景需求。

03 訓練數(shù)據(jù)是瓶頸,數(shù)據(jù)還能從哪里來?

能否獲得高質(zhì)量且足夠便宜的數(shù)據(jù),是當下制約智能機器人發(fā)展的瓶頸,也是拉開公司之間競爭的重要手段。

前車之鑒是Everday Robots,它曾是谷歌的明星獨立項目,但在今年2月被谷歌因成本控制而解散,并入谷歌其他部門。造成Everday Robots成本高昂的一個重要原因,就是數(shù)據(jù)采集成本過于昂貴。OpenAI曾經(jīng)也有一個機器人部門,但后來放棄了,問題也出在數(shù)據(jù)收集上。

為什么采集成本這么高?主要是因為Everday Robots基于真實環(huán)境來收集數(shù)據(jù)。谷歌為了訓練PaLM-E,用了13臺機器人,收集了17個月,才拿到足夠的數(shù)據(jù)量,如果是在更復雜的工業(yè)場景,數(shù)據(jù)采集成本會更高。

目前對于人形機器人來說,主流的數(shù)據(jù)獲取手段有四種:

遙操作數(shù)據(jù):這是目前最主流的方式,特斯拉等很多機器人公司都在使用。這種方式基于人工遙操作,先學習和分解人是怎么做到的,然后對應機器人要怎么做到。由于是真實世界的數(shù)據(jù),所以數(shù)據(jù)質(zhì)量最高,但數(shù)據(jù)采集成本也是最高的。

模擬器數(shù)據(jù):由于遙操作成本過高,更低成本的基于模擬器,來生產(chǎn)仿真數(shù)據(jù)也有越來越多人使用。一方面通過合成仿真數(shù)據(jù)可以大幅擴展數(shù)據(jù)集,此外仿真場景還可以去補充日常現(xiàn)實中比較少出現(xiàn)的任務。在一些任務中,比如導航或是抓取物品等,仿真表現(xiàn)不錯,但在另一些對真實物理數(shù)據(jù)要求比較高的場景,比如在流體中的運動、或是物體破裂等等,還比較難在仿真里做到。但模擬器不是萬能的,如何構建豐富的3D內(nèi)容、如何設置合適的獎勵機制等,也是這種方式所面臨的問題,當然還有算力成本。

視頻數(shù)據(jù):鑒于線上視頻網(wǎng)站中,有大量第一人稱視角的視頻,這些視頻完全可以讓機器人或者AI來學習,這些都是很好的人類真實活動的視頻,通過這些圖像來訓練機器人的行為決策,可以快速且低成本的實現(xiàn)數(shù)據(jù)積累和泛化能力。目前學界和谷歌等大廠,都在嘗試這種方式來加快訓練。

模仿學習:這種方式還在研究中,就是讓人直接在機器人面前演示一遍,機器人就學會了。比如在家庭場景中的一些動作,掃地或是把臟衣服放進洗衣機,可能只需要教幾遍,不需要額外采集數(shù)據(jù),也不需要動作捕捉。有不少相關的論文已經(jīng)發(fā)表。

總之,具身大數(shù)據(jù)對于機器人來說是一個重要瓶頸,在缺乏具身數(shù)據(jù)的情況下,很難訓練出真正好用的具身基礎模型。

目前在每條數(shù)據(jù)獲取的技術路徑上,都有很多公司或高校在嘗試,很多公司也是幾種方式混合在一起使用,以最快的速度和盡量低的成本來獲取高質(zhì)量數(shù)據(jù)。

今年,機器人在真實環(huán)境中的規(guī)劃、感知、決策、執(zhí)行等能力大幅提升,通過語音直接控制成為可行,人機交互也大大增強。在這種智能化、通用性的發(fā)展趨勢下,通用機器人的應用領域被大大拓寬,人形機器人的商業(yè)化也成為了可能。

通用機器人還將帶來工業(yè)制造能力的騰飛,從以前只能機械完成代碼指令的工業(yè)機器人,變成能使用大量人類工具、載具的通用機器人。而在工業(yè)制造領域,無論是在機器人零件端,還是工業(yè)制造的應用場景、訓練所需要的數(shù)據(jù)成本等方面,中國都更具優(yōu)勢。

在ITF World 2023大會上,英偉達創(chuàng)始人黃仁勛說,人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統(tǒng)。而通用機器人,無疑是最理想的載體。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

今年,是人形機器人的“iPhone時刻”嗎?

一個浪潮將是具身智能,而通用機器人是最理想的載體。

文|經(jīng)緯創(chuàng)投

最近,人形機器人變得非?;馃?。2023世界機器人大會近日在北京開幕,人潮涌動。同時,宇樹科技、智元機器人等創(chuàng)業(yè)公司,相繼發(fā)布了自己的人形機器人,當這些站立行走,能跑能跳的機器人真真切切地出現(xiàn)在人們面前時,把人們的期待推向了最高潮。

機器人一直是說起來容易,很科幻,但做起來非常難。哪怕是在不少工廠的流水線里,機器人還是很難適應很多復雜場景。不過自去年底,特斯拉發(fā)布了人形機器人Optimus(擎天柱)以來,人形機器人賽道就在逐漸升溫。

那么,為什么人形機器人火了?現(xiàn)在到技術爆發(fā)的臨界點了嗎?相比于工業(yè)機器人(是一個比較成熟的賽道,更像傳統(tǒng)機械設備),這一波大家對機器人的想象,與工業(yè)機器人有什么底層不同?

首先,我們總結說結論,人形機器人賽道之所以變熱,核心是智能泛化能力大幅加強,讓通用機器人成為可能。以前機器人行業(yè)之所以迭代得很慢,是因為每學一套新動作,就需要重新編程一次,只是“機械的自動化”。而現(xiàn)在有了智能泛化能力的突破,甚至只需要語音控制,機器人就能實現(xiàn)新功能,這是從自動化到智能化的底層轉(zhuǎn)變,機器人的通用性被大大增強。

英國機器人公司Engineered Arts的人形機器人Ameca,在接入Stable Diffusion之后,可以完成一些簡筆畫,比如畫一只貓。圖片來源:Engineered Arts

基于這個認知,我們還可以延展出很多新問題:

當機器人觸達技術爆發(fā)臨界點,更智能的機器人能用在哪里?

機器人是否要做成“人形”?

訓練數(shù)據(jù)是瓶頸,數(shù)據(jù)還能從哪里來?

今天這篇文章,我們就來探討以上這些問題,不過人形機器人是一個高速發(fā)展中的新賽道,很多問題還沒有準確答案,對于一些有爭議的部分,歡迎在評論區(qū)聊聊,Enjoy:

人形機器人是一個大賽道,能帶動眾多細分賽道。以特斯拉機器人Optimus為代表的人形機器人硬件全景圖。圖片來源:中信證券

01 當機器人觸達技術爆發(fā)臨界點,更智能的機器人能用在哪里?

曾經(jīng),機器人是一個迭代速度不算太快的領域,現(xiàn)在的汽車工廠里已有很多工業(yè)機器人,并且有著幾十年的應用歷史,但基本都是非通用智能機器人。

其中的瓶頸在于,像工業(yè)機器人這樣的非通用智能機器人(往往只是一個機械臂),是在特定場景里做特定任務,各種動作和反應的算法都是寫定的,一旦遇到新的情況或環(huán)境,如果沒有預先寫好算法,就會立即變成“智障”。

如今有可能出現(xiàn)真正的通用機器人,這也極大擴展了機器人潛在的應用場景。以往工業(yè)機器人只能在流水線的單點上,比如擰好某個螺絲,或是組裝好某個部件,但如今有了通用機器人之后,只需要讓機器人學會安裝邏輯和評估標準就可以了,并且它不僅可以擰好螺絲,當螺絲用完了還可以自己從倉庫里取來,或是給機器人裝上靈巧手,它就可以使用一些工具,來處理螺絲之外更復雜的事情。

此外,結合LLM我們還可以實現(xiàn)語音控制,只需要說出“請給我拿杯水”,先把語音轉(zhuǎn)換成代碼,再把代碼轉(zhuǎn)換成機器人的動作。這不是影視劇里很遙遠的事情,而是正在發(fā)生的。今年谷歌發(fā)布了Robotics Transformer-2(RT-2),微軟發(fā)布了“ ChatGPT for Robotics ”論文,給整個機器人行業(yè)帶來了轟動。

今年的這些新進展,與以前“每做一套新動作,就需要重新編程一次”的機器人,有著天壤之別。未來無論是在工廠車間,還是商場、家庭,都很有可能出現(xiàn)一個通用機器人,它能適應不同的環(huán)節(jié),不需要重新編程就能在不同任務之間切換自如。

目前,對于大多數(shù)通用機器人創(chuàng)業(yè)公司來說,第一目標還不是ToC,而是ToB,比如工業(yè)或是商業(yè)場景。先在B端場景中打磨好能力,再最終應用到C端,是不少機器人公司的計劃。

很多公司都把汽車生產(chǎn)作為首要場景。汽車工廠規(guī)模很大,較早實現(xiàn)自動化,其中很多環(huán)節(jié)已經(jīng)形成流水線用工業(yè)機器人替代,但仍有不少環(huán)節(jié)需要人工操作。比如在汽車工廠的總裝車間,仍然需要大量人力,人形機器人可以替代這些環(huán)節(jié),并非替代已經(jīng)通過工業(yè)機器人實現(xiàn)自動化的環(huán)節(jié)。

如果按照馬斯克的計劃,特斯拉的第一批機器人主要在B端應用,替代那些危險、無聊、重復的工作,或是人們不想做的工作。第二批大規(guī)模使用的機器人,會擁有在現(xiàn)實世界中的導航能力,也是復用特斯拉電動車的視覺導航技術,無需特定指令也能做有用的事;第三批則是10年左右,人們可以在家里使用機器人。

除了汽車工廠,還有3C的組裝、檢測等環(huán)節(jié);以及在商業(yè)場景中,比如零售業(yè)的貨架管理、清潔等,也仍有需要大量人工的場景。隨著社會老齡化及人力成本的攀升,將有不小的勞動力缺口需要填補。

當然,有些場景也并非一定需要人形機器人,而是根據(jù)需求來選擇。比如宇樹科技創(chuàng)始人兼CEO王興興曾說,四足機器人與雙足機器人相比,具備更高的載荷能力和極強的平衡能力,也更易于控制、設計和維護,在工業(yè)端和消費端等都有廣泛的應用場景,尤其能在一些危險場景代替人類進行作業(yè)。

宇樹科技的機器狗可用于消防。圖片來源:宇樹科技

鴻海、軟銀投資的日本機器人初創(chuàng)公司Telexistence,可作為商超貨架的補貨機器人

不過,今天的通用機器人,離真正商業(yè)化落地還有諸多障礙。最明顯的就是成功率、執(zhí)行速度和精度都還不太夠。比如谷歌的RT-2比起RT-1,執(zhí)行成功率提高到了80%,但在實機演示中,還是錯誤地識別了一罐檸檬味蘇打水,說成了“橘子味”;以及被問到桌子上有什么水果時,機器人回答成“白色”,但實際是香蕉。谷歌解釋說,因為WiFi臨時中斷,機器人使用了緩存的答案來回答。雖然80%的準確率在一些場景夠用,但在另一些需要精度的場景仍然不夠,比如一些精密儀器的操作等等。

當然,我們說了這么多具身智能、通用機器人,也并不是說原來的工業(yè)機器人領域就沒有機會了,只是邏輯不同。在傳統(tǒng)機械設備領域,仍有大量機器人零部件創(chuàng)新,和國產(chǎn)替代的機會。比如工業(yè)機器人的核心零部件減速器,就長期被日本和德國公司壟斷;工業(yè)機器人整體的國產(chǎn)化率也僅有35%,特別是在大六軸、汽車3C、焊接等工業(yè)機器人細分賽道,國產(chǎn)化率都是偏低的,結合智能化仍然有成長空間與創(chuàng)新潛力。

02 機器人是否要做成“人形”?

在無數(shù)科幻影視作品中,人形機器人一直才是人們對機器人的終極想象,比起工業(yè)機器人,人形機器人是一種更高維的存在。但由于實現(xiàn)難度太大,一直不是機器人行業(yè)的主要形態(tài),直到最近1年特斯拉的人形機器人發(fā)布,才成為市場焦點。

市場也存在很多質(zhì)疑聲:到底我們需不需要人形機器人?既然難度這么大,到底需要多少年才能在現(xiàn)實生活中落地?是否應該先從機械狗、多輪底盤+機械臂等形態(tài)入手,而不是一上來就做人形?

當然這個問題還沒有答案,我們看到谷歌搭載RT-2的機器人,就是四個輪子作為底盤+一個機械臂,已經(jīng)能實現(xiàn)很多功能,比如撿起小東西、開窗戶或是垃圾篩選。這種單臂、輪式服務機器人不需要靈巧手(利用空心杯電機實現(xiàn)的仿人手設計)、不需要仿人腿的運動控制系統(tǒng),也能實現(xiàn)很多家庭、工廠場景的功能。當然它也會有限制,比如不能上下樓梯。

Google的機器人就是輪式底盤+單臂+攝像頭的形態(tài)。圖片來源:Google Deepmind

當然,我們的觀點是人形肯定是終極形態(tài),因為我們相信最終機器人是會進入千家萬戶的。但根據(jù)不同場景需求,其他形態(tài)的機器人也會共存,比如不一定是雙足雙臂,更早到來的可能是輪式單臂。

人形的好處是:首先是應用范圍。如果用終局思維來思考,人形機器人的應用范圍肯定是最廣的,因為人形才是最適合社會中所有場景的形態(tài),我們所有的建筑、工具等等,都是基于人類的身形而設計的,所以無需改變場景來適應機器人,就能直接使用人類社會中所有工具。這也符合馬斯克所提出的愿景,他希望今后人類不想干的事全都可以交給機器人來干,甚至發(fā)掘出目前我們還預料不到的用途。

比如最典型的,就是人類的腿和手,在仿生步態(tài)下,機器人的運動能力比傳統(tǒng)履帶、四輪、雙輪機器人都有大幅提升,機器人可以上下樓,可以跳躍過障礙物等等。對于手來說,基于空心杯電機的靈巧手,可以實現(xiàn)雙手配合和工具替換,這比起傳統(tǒng)的工業(yè)機器人,能用更廣泛的人類工具,技能更廣。

特斯拉使用空心杯電機設計的靈巧手。圖片來源:東吳證券

其次如果考慮交互,“人形”才能傳遞出的肢體語言、面部表情等等信息。比如在梅拉賓法則中,心理學家就在強調(diào)肢體語言的作用。肢體語言也最符合人類的認知,人類無需重新學習任何新東西,就能輕松理解機器人的動作。在結合大語言模型之后,能夠更好的與人類交互。

例如英國Engineered Arts 公司的人形機器人Ameca,輸入了大量真人表情數(shù)據(jù),通過立體3D打印機制作出精確的模具,實現(xiàn)了生動的面部表情和肢體語言。

英國機器人公司Engineered Arts的人形機器人Ameca,能夠在橡膠皮膚上表現(xiàn)出超過 62 種面部表情,這是Ameca著名的“蘇醒時刻”

我們都知道人形有這么多好處,但對人形機器人最大的制約,還是軟硬件技術的高難度,小到每一個關節(jié)的設計,再到運動控制、對環(huán)境的感知等等,每一個環(huán)節(jié)都存在技術難題,綜合在一起更是對系統(tǒng)的集成度、魯棒性要求很高。

比如運動控制的標桿波士頓動力,已經(jīng)成立了31年,歷經(jīng)被谷歌收購、被軟銀收購、被韓國現(xiàn)代集團收購,一直都在不斷投入,雖然實現(xiàn)了“跑酷”等炫酷的功能,但背后是不計成本的投入、功耗極高、噪音很大,離量產(chǎn)落地還差很遠。

波士頓動力的機器人跑酷演示。視頻來源:波士頓動力YouTube頻道

不過,如果一家公司把最終目標定位成人形機器人,不代表它的產(chǎn)品只有一款人形機器人。在高難度的技術研發(fā)中,無論是移動、抓取還是視覺感知等等,都可以在這個過程中迭代出新的產(chǎn)品,而最終把各項技術組合在一起,簡單來說就是:人形機器人是最難的機器人形態(tài),誰能做好人形,誰就也能做好其他形態(tài)的機器人。

總之,機器人的通用性和智能化是接下來的重點,但不一定非要是人形,當下還需要看場景需求。

03 訓練數(shù)據(jù)是瓶頸,數(shù)據(jù)還能從哪里來?

能否獲得高質(zhì)量且足夠便宜的數(shù)據(jù),是當下制約智能機器人發(fā)展的瓶頸,也是拉開公司之間競爭的重要手段。

前車之鑒是Everday Robots,它曾是谷歌的明星獨立項目,但在今年2月被谷歌因成本控制而解散,并入谷歌其他部門。造成Everday Robots成本高昂的一個重要原因,就是數(shù)據(jù)采集成本過于昂貴。OpenAI曾經(jīng)也有一個機器人部門,但后來放棄了,問題也出在數(shù)據(jù)收集上。

為什么采集成本這么高?主要是因為Everday Robots基于真實環(huán)境來收集數(shù)據(jù)。谷歌為了訓練PaLM-E,用了13臺機器人,收集了17個月,才拿到足夠的數(shù)據(jù)量,如果是在更復雜的工業(yè)場景,數(shù)據(jù)采集成本會更高。

目前對于人形機器人來說,主流的數(shù)據(jù)獲取手段有四種:

遙操作數(shù)據(jù):這是目前最主流的方式,特斯拉等很多機器人公司都在使用。這種方式基于人工遙操作,先學習和分解人是怎么做到的,然后對應機器人要怎么做到。由于是真實世界的數(shù)據(jù),所以數(shù)據(jù)質(zhì)量最高,但數(shù)據(jù)采集成本也是最高的。

模擬器數(shù)據(jù):由于遙操作成本過高,更低成本的基于模擬器,來生產(chǎn)仿真數(shù)據(jù)也有越來越多人使用。一方面通過合成仿真數(shù)據(jù)可以大幅擴展數(shù)據(jù)集,此外仿真場景還可以去補充日?,F(xiàn)實中比較少出現(xiàn)的任務。在一些任務中,比如導航或是抓取物品等,仿真表現(xiàn)不錯,但在另一些對真實物理數(shù)據(jù)要求比較高的場景,比如在流體中的運動、或是物體破裂等等,還比較難在仿真里做到。但模擬器不是萬能的,如何構建豐富的3D內(nèi)容、如何設置合適的獎勵機制等,也是這種方式所面臨的問題,當然還有算力成本。

視頻數(shù)據(jù):鑒于線上視頻網(wǎng)站中,有大量第一人稱視角的視頻,這些視頻完全可以讓機器人或者AI來學習,這些都是很好的人類真實活動的視頻,通過這些圖像來訓練機器人的行為決策,可以快速且低成本的實現(xiàn)數(shù)據(jù)積累和泛化能力。目前學界和谷歌等大廠,都在嘗試這種方式來加快訓練。

模仿學習:這種方式還在研究中,就是讓人直接在機器人面前演示一遍,機器人就學會了。比如在家庭場景中的一些動作,掃地或是把臟衣服放進洗衣機,可能只需要教幾遍,不需要額外采集數(shù)據(jù),也不需要動作捕捉。有不少相關的論文已經(jīng)發(fā)表。

總之,具身大數(shù)據(jù)對于機器人來說是一個重要瓶頸,在缺乏具身數(shù)據(jù)的情況下,很難訓練出真正好用的具身基礎模型。

目前在每條數(shù)據(jù)獲取的技術路徑上,都有很多公司或高校在嘗試,很多公司也是幾種方式混合在一起使用,以最快的速度和盡量低的成本來獲取高質(zhì)量數(shù)據(jù)。

今年,機器人在真實環(huán)境中的規(guī)劃、感知、決策、執(zhí)行等能力大幅提升,通過語音直接控制成為可行,人機交互也大大增強。在這種智能化、通用性的發(fā)展趨勢下,通用機器人的應用領域被大大拓寬,人形機器人的商業(yè)化也成為了可能。

通用機器人還將帶來工業(yè)制造能力的騰飛,從以前只能機械完成代碼指令的工業(yè)機器人,變成能使用大量人類工具、載具的通用機器人。而在工業(yè)制造領域,無論是在機器人零件端,還是工業(yè)制造的應用場景、訓練所需要的數(shù)據(jù)成本等方面,中國都更具優(yōu)勢。

在ITF World 2023大會上,英偉達創(chuàng)始人黃仁勛說,人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統(tǒng)。而通用機器人,無疑是最理想的載體。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。