正在閱讀:

具身智能“奇點(diǎn)”將至,商業(yè)化落地還有幾道坎?

掃一掃下載界面新聞APP

具身智能“奇點(diǎn)”將至,商業(yè)化落地還有幾道坎?

一個(gè)新的物種,正在硬件與智能的交互中誕生。

文 | 極智GeeTech

在1927年上映的《大都會(huì)》中,全世界第一部包含人形機(jī)器人的角色Maria誕生。

時(shí)隔60多年,人形機(jī)器人從電影走向現(xiàn)實(shí)。2000年,本田的ASIMO成為世界上最著名的人形機(jī)器人之一,它能夠行走、跑步甚至進(jìn)行簡(jiǎn)單的交流。如今,人形機(jī)器人浪潮正全面席卷而來(lái)。

2024年,在大模型的加持下,一個(gè)足夠性感的故事正在展開(kāi):長(zhǎng)出“大腦”的人形機(jī)器人與科幻電影中通用機(jī)器人之間的差距正在縮短。在今年世界機(jī)器人大會(huì)上,27款人形機(jī)器人齊聚亮相,創(chuàng)歷屆之最。

作為人形機(jī)器人的內(nèi)核,具身智能站在大模型和自動(dòng)駕駛的臂膀上,其商業(yè)化進(jìn)程要比預(yù)期來(lái)得更快。故事的書寫者們,已在具身智能領(lǐng)域內(nèi)掀起一場(chǎng)諸神之戰(zhàn)。

具身智能 vs 自動(dòng)駕駛

對(duì)于具身智能,并沒(méi)有一個(gè)嚴(yán)格的官方定義,其通常是指本體與智能體的結(jié)合,本體實(shí)現(xiàn)與物理環(huán)境的交互,感知環(huán)境做出行動(dòng),智能體通過(guò)環(huán)境信息持續(xù)學(xué)習(xí)賦予智慧,是包含人工智能、機(jī)器人本體、認(rèn)知科學(xué)、神經(jīng)科學(xué)等多學(xué)科交叉的系統(tǒng)。

2024年5月,英國(guó)自動(dòng)駕駛獨(dú)角獸Wayve完成了10.5億美元C輪融資,這不僅是英國(guó)史上最大規(guī)模的AI融資,也是迄今為止全球排名前20名的AI融資之一。值得注意的是,Wayve聯(lián)合創(chuàng)始人兼CEO在完成融資當(dāng)天寫下這樣一句話:“具身智能注定會(huì)成為最具價(jià)值的AI應(yīng)用,未來(lái)還可能會(huì)改變我們與科技的交互方式?!?/p>

令人好奇的是,為什么一家自動(dòng)駕駛公司要在融資當(dāng)天提到具身智能,甚至還極為看好?

有人說(shuō),自動(dòng)駕駛的存在是取代司機(jī),具身智能的存在是要替代整個(gè)人類。當(dāng)然,這只是跟隨如今互聯(lián)網(wǎng)風(fēng)格的一種狹隘理解。自動(dòng)駕駛與具身智能的真正相似之處是,從技術(shù)到底層邏輯的相似。而一種更好的理解則是,既然2024是自動(dòng)駕駛的商業(yè)化元年,那么同樣地,它也見(jiàn)證了具身智能的“元年”。

根據(jù)全球頂級(jí)對(duì)沖基金Coatue發(fā)布的一篇關(guān)于“具身智能”的報(bào)告《The Path to General-Purpose Robots》(通往通用機(jī)器人之路),如果將具身智能的階段與自動(dòng)駕駛的階段做類比,“過(guò)去無(wú)人駕駛汽車從L1到L2花了大約20年,而從L2到現(xiàn)在的L4只用了不到10年;那么人型機(jī)器人從L1到L2用了大約50年,從L2到L4預(yù)計(jì)只需要不到5年?!?/p>

業(yè)界普遍認(rèn)為,人形是機(jī)器人領(lǐng)域形態(tài)發(fā)展的最終目標(biāo),如果用自動(dòng)駕駛的等級(jí)類比,即擁有高智能水平的人形機(jī)器人是L4。

與智能汽車類似,具身智能的實(shí)現(xiàn)包括“感知、決策、控制”三個(gè)主要環(huán)節(jié),并需要內(nèi)外部通信傳輸?shù)闹С帧?/p>

感知是具身智能交互世界的窗口,首先要通過(guò)環(huán)境傳感器、運(yùn)動(dòng)傳感器收集環(huán)境與自身狀態(tài)信息,作為決策環(huán)節(jié)的依據(jù);其次,要根據(jù)感知的信息以及任務(wù)目標(biāo),對(duì)自身行為進(jìn)行規(guī)劃決策,并向控制模塊發(fā)出指令;之后,將決策指令轉(zhuǎn)化為實(shí)際操作,實(shí)現(xiàn)與物理世界的互動(dòng);傳輸方面則強(qiáng)調(diào)低時(shí)延、多連接、連續(xù)性能力。

從商業(yè)化的角度來(lái)看,具身智能與自動(dòng)駕駛的發(fā)展路徑也或有高度擬合。以L2、L4區(qū)分,具身智能時(shí)代的人形機(jī)器人可以分為2種路徑:一種是在L2級(jí)別下逐步孵化出衍生的商業(yè)化產(chǎn)品,并且機(jī)器人的軀體形態(tài)也逐漸從輪式、足式、雙臂、到全身等等;而另一種則是L4級(jí)的打法,企業(yè)從一開(kāi)始就只做人形機(jī)器人,直接求解最難的問(wèn)題。通過(guò)大規(guī)模融資來(lái)穿越技術(shù)的發(fā)展周期。

自動(dòng)駕駛的商業(yè)化有三類機(jī)會(huì):首先是車本身,即L4自動(dòng)駕駛技術(shù)的機(jī)會(huì);其次是應(yīng)用場(chǎng)景,即L2級(jí)別自動(dòng)駕駛的機(jī)遇;最后是傳感器、毫米波、智能座艙等供應(yīng)鏈技術(shù)。

清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤認(rèn)為,無(wú)人駕駛將是未來(lái)五年內(nèi)最大的物理(具身)智能應(yīng)用,并且有望成為第一個(gè)通過(guò)“新圖靈測(cè)試”的具身智能系統(tǒng)。2025年將成為無(wú)人駕駛的“ChatGPT 時(shí)刻”,2030年無(wú)人駕駛成為主流,預(yù)計(jì)有10%的新車具備L4級(jí)別的自動(dòng)駕駛能力。

對(duì)具身智能來(lái)說(shuō),機(jī)器人從局部到全身整體的蛻變過(guò)程,也會(huì)帶來(lái)三類機(jī)遇。

首先是機(jī)器人本體的開(kāi)發(fā),企業(yè)若有條件在初期就推出人形,自然能搶奪市場(chǎng)先機(jī),讓后來(lái)者很難分一杯羹。

其次是場(chǎng)景機(jī)會(huì),目前機(jī)器人的應(yīng)用場(chǎng)景相對(duì)較少,但這也為行業(yè)提供了探索和發(fā)展的空間。

第三是產(chǎn)業(yè)上下游的機(jī)遇,上游包括智算中心的建設(shè)、算力芯片和端側(cè)模型等賦能機(jī)器人的關(guān)鍵技術(shù);下游則涉及到各種傳感器、關(guān)節(jié)模組,它們相當(dāng)于機(jī)器人的感官系統(tǒng),包括視覺(jué)、觸覺(jué)和運(yùn)動(dòng)感知等等。

很顯然,在具身智能中,“上難度”的人形機(jī)器人代表著需要穿越周期的L4,甚至是L5。

“大腦+小腦”,大模型實(shí)現(xiàn)具身智能

從馬斯克到AI知名學(xué)者李飛飛,從英偉達(dá)、OpenAI甚至到國(guó)內(nèi)幾乎所有科技大廠,全部紛紛涌入具身智能賽道,一致看好這個(gè)如今AI大模型加持下的機(jī)器人產(chǎn)業(yè)。

今年,人形機(jī)器人行業(yè)在具身智能領(lǐng)域取得了顯著的突破,基于通用大模型、數(shù)據(jù)集、高效計(jì)算架構(gòu)、多模態(tài)融合感知等關(guān)鍵技術(shù),為人形機(jī)器人安上聰明的“大腦”,使得人形機(jī)器人具備認(rèn)知和決策能力,推動(dòng)人形機(jī)器人走向?qū)嵱秒A段。

從大模型角度看,從最初的大語(yǔ)言模型(LLM),逐步邁向圖像-語(yǔ)言模型(VLM)乃至圖像-語(yǔ)言-動(dòng)作多模態(tài)模型(VLA),這一轉(zhuǎn)變不僅意味著機(jī)器人將擁有更加豐富的信息處理能力,更預(yù)示著它們將能夠跨越語(yǔ)言與視覺(jué)的界限,實(shí)現(xiàn)更為復(fù)雜、靈活的交互方式。在這樣的技術(shù)背景下,人形機(jī)器人正朝著具身智能的終極目標(biāo)邁進(jìn)。

“具身”特點(diǎn)使具身智能大模型與通用大模型存在顯著差異。傳統(tǒng)具身智能的研究以深度學(xué)習(xí)范式為主流,通過(guò)模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練具身系統(tǒng),使其習(xí)得技能。但傳統(tǒng)深度學(xué)習(xí)算法對(duì)數(shù)據(jù)集的依賴程度較高、遷移泛化能力較弱,對(duì)于訓(xùn)練數(shù)據(jù)以外的技能執(zhí)行起來(lái)較為困難。

大模型的出現(xiàn)為邁向通用人工智能提供契機(jī)。自谷歌Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)發(fā)布以來(lái),眾多研究者發(fā)現(xiàn)基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型在非語(yǔ)言類的任務(wù)中也能取得不錯(cuò)的效果,具有較強(qiáng)的泛化能力。此后大模型被引入具身智能領(lǐng)域,例如谷歌在2023年發(fā)布的PaLM-E模型,即是基于Transformer神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的具身多模態(tài)大語(yǔ)言模型。

相較通用大模型,具身智能大模型需要更多地考慮感知的細(xì)度與廣度、與環(huán)境的交互性以及控制的協(xié)調(diào)性。

具身智能系統(tǒng)不僅要能夠準(zhǔn)確地識(shí)別物體的類別和屬性,還要將視覺(jué)信息轉(zhuǎn)化為精確的空間坐標(biāo),以供機(jī)械臂、靈巧手等部位執(zhí)行精細(xì)操作和關(guān)節(jié)控制。

同時(shí),除文本、圖像、音頻、視頻等較為常見(jiàn)的模態(tài)數(shù)據(jù)外,具身智能還需要接收觸覺(jué)(如力的反饋、表面材質(zhì))、姿態(tài)(如空間坐標(biāo)、位移距離、旋轉(zhuǎn)角度)等信息,以實(shí)現(xiàn)對(duì)環(huán)境更全面和準(zhǔn)確的理解。

具身智能算法也需要理解物體的運(yùn)動(dòng)軌跡、事件的發(fā)展順序,才能做出及時(shí)而準(zhǔn)確的決策。

環(huán)境交互是具身智能區(qū)別于其他有實(shí)體機(jī)器人的重要特征,通過(guò)與環(huán)境的交互,持續(xù)學(xué)習(xí)并更新知識(shí),從而不斷提升算法性能。

目前,人形機(jī)器人廠商主要采用分層端到端的方案,即通過(guò)“大腦大模型”和“小腦大模型”互相配合完成任務(wù)。

“大腦大模型”大多基于多模態(tài)通用大模型,完成對(duì)任務(wù)的感知規(guī)劃,再通過(guò)API調(diào)度“小腦大模型”驅(qū)動(dòng)關(guān)節(jié)硬件完成執(zhí)行。

例如優(yōu)必選人形機(jī)器人Walker S接入百度文心大模型;智元機(jī)器人與科大訊飛簽署合作戰(zhàn)略協(xié)議,依托訊飛星火大模型進(jìn)行聯(lián)合開(kāi)發(fā);樂(lè)聚機(jī)器人夸父搭載的是華為盤古大模型。

在“小腦大模型”方面,在技能應(yīng)用上,智元機(jī)器人推出了通用的位姿估計(jì)模型UniPose、通用的抓取模型UniGrasp,通用的力控插拔模型UniPlug等一系列通用原子能力模型,可以配合大語(yǔ)言模型框架去做任務(wù)編排,使得機(jī)器人相比傳統(tǒng)協(xié)作機(jī)器人更容易部署,且具備一定的泛化能力。

優(yōu)必選則從應(yīng)用場(chǎng)景出發(fā),集合了工業(yè)場(chǎng)景垂域大模型技術(shù)、計(jì)算機(jī)視覺(jué)感知、語(yǔ)義VSLAM導(dǎo)航、學(xué)習(xí)型全身運(yùn)動(dòng)控制、多模態(tài)人機(jī)交互等人形機(jī)器人全棧式技術(shù),將人形機(jī)器人引入汽車產(chǎn)線的智能搬運(yùn)、質(zhì)量檢查和化學(xué)品操作等工位,推動(dòng)人形機(jī)器人在汽車工廠的大規(guī)模應(yīng)用。

值得注意的是,特斯拉Optimus使用完全端到端的神經(jīng)網(wǎng)絡(luò)大模型,借助傳感器和計(jì)算機(jī)視覺(jué)技術(shù),利用海量數(shù)據(jù)不斷優(yōu)化訓(xùn)練過(guò)程,直接生成關(guān)節(jié)控制序列。

在“小腦”操作大模型領(lǐng)域,各大廠商剛剛起步,多技術(shù)路徑同步發(fā)展。操作大模型決定了人形機(jī)器人在任務(wù)執(zhí)行側(cè)的準(zhǔn)確度,是大規(guī)模商業(yè)應(yīng)用場(chǎng)景落地的前提。

數(shù)據(jù)成為第一大瓶頸

業(yè)內(nèi)普遍認(rèn)為,缺乏規(guī)模龐大且高質(zhì)量數(shù)據(jù)是具身智能的發(fā)展難題之一。由于訓(xùn)練機(jī)器人所需的物理數(shù)據(jù)不如文本數(shù)據(jù)量大且易獲得,相較于圖文大模型千億規(guī)模的數(shù)據(jù)訓(xùn)練量,目前機(jī)器人數(shù)據(jù)集量遠(yuǎn)不能滿足機(jī)器人達(dá)到通用大模型的需求。

目前,解決人形機(jī)器人訓(xùn)練數(shù)據(jù)短缺的問(wèn)題,一方面通過(guò)強(qiáng)化學(xué)習(xí)算法提高模型訓(xùn)練效率,一方面則通過(guò)仿真平臺(tái)合成數(shù)據(jù),建立數(shù)據(jù)開(kāi)放生態(tài)。

數(shù)據(jù)對(duì)于訓(xùn)練人形機(jī)器人具有至關(guān)重要的作用,它直接影響到機(jī)器人的感知能力、思考和決策能力以及行動(dòng)執(zhí)行能力。大模型通過(guò)大量數(shù)據(jù)學(xué)習(xí),讓機(jī)器人理解任務(wù)意圖,并遷移到下游任務(wù)中,高質(zhì)量訓(xùn)練數(shù)據(jù)能夠有效提升人形機(jī)器人場(chǎng)景泛化能力。

在解決高質(zhì)量具身智能數(shù)據(jù)不足的問(wèn)題上,可以通過(guò)模擬環(huán)境合成數(shù)據(jù)輔助真實(shí)世界數(shù)據(jù)以豐富訓(xùn)練數(shù)據(jù)來(lái)源,還可以構(gòu)建更大規(guī)模、更多模態(tài)的共享數(shù)據(jù)集。

使用仿真及合成數(shù)據(jù)能夠降低數(shù)據(jù)收集成本并提高開(kāi)發(fā)效率。合成數(shù)據(jù)的常見(jiàn)來(lái)源是借助大量符合現(xiàn)實(shí)世界物理規(guī)則的虛擬仿真場(chǎng)景學(xué)習(xí)技能和策略,后遷移到真實(shí)世界。與真實(shí)采集數(shù)據(jù)相比,基于仿真環(huán)境的合成數(shù)據(jù)具有采集成本低、采集速度快、可擴(kuò)展性強(qiáng)、標(biāo)注準(zhǔn)確度高的優(yōu)點(diǎn)。

共建高質(zhì)量開(kāi)源數(shù)據(jù)集,可以實(shí)現(xiàn)數(shù)據(jù)最大化利用。由于數(shù)據(jù)獲取的高成本、長(zhǎng)周期以及隱私安全問(wèn)題,大部分具身智能研究組織和企業(yè)僅限于在某個(gè)特定環(huán)境中收集數(shù)據(jù),數(shù)據(jù)共享的缺乏導(dǎo)致重復(fù)勞動(dòng)和資源浪費(fèi),形成“數(shù)據(jù)孤島”。

2023年,DeepMind與眾多科研機(jī)構(gòu)展開(kāi)合作,構(gòu)建了真實(shí)機(jī)器人開(kāi)源數(shù)據(jù)集Open X-Embodiment,包含22個(gè)機(jī)器人超過(guò)100萬(wàn)個(gè)軌跡片段、500多項(xiàng)技能、16多萬(wàn)項(xiàng)任務(wù)?;诖碎_(kāi)源數(shù)據(jù)集訓(xùn)練的具身智能控制基礎(chǔ)模型RT-X,表現(xiàn)出在跨場(chǎng)景、多任務(wù)應(yīng)用中超越此前基于特定場(chǎng)景和數(shù)據(jù)集下的技能水平。

具身智能行至爆發(fā)前夜

從1973 年早稻田大學(xué)開(kāi)發(fā)的世界上第一款人形機(jī)器人WABOT-1,到特斯拉的人形機(jī)器人Optimus、Figure AI的Figure 02,機(jī)器人的移動(dòng)能力、操作能力、交互能力已經(jīng)發(fā)生了巨大的變化,過(guò)去兩年,多模態(tài)大模型的加持,讓機(jī)器人借著具身智能的快速發(fā)展進(jìn)入了一個(gè)新的階段。

2023年,行業(yè)新品迭出不窮,特斯拉、Figure AI,以及宇樹(shù)、智元、傅利葉等一批國(guó)產(chǎn)品牌集中在2023年推出首款人形機(jī)器人產(chǎn)品,銀河通用、加速進(jìn)化、星動(dòng)紀(jì)元等廠商紛紛成立,促成行業(yè)新品迭出的欣欣向榮之象。

行至2024年,優(yōu)必選、Apptronik、特斯拉、Figure AI等公司開(kāi)始陸續(xù)與汽車主機(jī)廠展開(kāi)合作,將人形機(jī)器人落地汽車制造場(chǎng)景,初探商業(yè)化可能。

不過(guò),目前絕大部分具身智能公司還處于不斷迭代的Demo階段,何時(shí)能夠?qū)a(chǎn)品與某一場(chǎng)景很好地結(jié)合并商業(yè)化落地,是行業(yè)關(guān)心的重點(diǎn)問(wèn)題。

根據(jù)中金研究院及研究部聯(lián)合研究發(fā)布的《AI經(jīng)濟(jì)學(xué)》報(bào)告,從任務(wù)角度看,人形機(jī)器人“具身”的特點(diǎn)使其尤其適合力量型、靈巧型及空間移動(dòng)導(dǎo)航等體力任務(wù),例如上下料、維修、巡檢等。同時(shí),其“智能體”特征使其具備人的智能與情感,能夠在教培輔導(dǎo)、服務(wù)接待、人文關(guān)懷等支持型任務(wù)中發(fā)揮作用,例如教育、講解導(dǎo)引、養(yǎng)老助殘等。

大部分行業(yè)都是由多類任務(wù)組合而成的,如果向終局去看,人形機(jī)器人有望在各個(gè)行業(yè)找到適合自身落地的應(yīng)用場(chǎng)景。比如,服務(wù)業(yè)前臺(tái)(營(yíng)業(yè)部客戶接待)、采礦業(yè)(物料挖掘搬運(yùn))、水電熱氣(電力巡檢)、看護(hù)養(yǎng)老業(yè)(康養(yǎng)陪護(hù))、裝備制造業(yè)(工業(yè)制造)、醫(yī)療衛(wèi)生業(yè)(手術(shù)機(jī)器人)、住宿和餐飲業(yè)(餐飲服務(wù)機(jī)器人)等等,不一而足。

可以說(shuō),人形機(jī)器人的滲透不會(huì)一蹴而就,隨著技術(shù)不斷成熟,人形機(jī)器人不僅能夠有更自然的交互性能,實(shí)現(xiàn)在交互要求更高的公共服務(wù)場(chǎng)景以及個(gè)人家用場(chǎng)景中的應(yīng)用,還能提升對(duì)復(fù)雜場(chǎng)景的應(yīng)對(duì)能力,進(jìn)而開(kāi)啟在高危、救援、多變環(huán)境下的滲透??傮w趨勢(shì)是由專用場(chǎng)景向通用場(chǎng)景漸次滲透,最終實(shí)現(xiàn)在全行業(yè)各場(chǎng)景的落地。

具身智能時(shí)代的機(jī)器人,最終會(huì)擁有什么樣的形態(tài)?這個(gè)問(wèn)題的背后,歸根結(jié)底是人類創(chuàng)造者對(duì)機(jī)器人的想象力。而無(wú)論是怎樣的想象,可預(yù)見(jiàn)的未來(lái)機(jī)器人或許都有類似的含義:一個(gè)在視覺(jué)、學(xué)習(xí)、決策等多維度擁有更高智能水平的機(jī)器人。

一個(gè)新的物種,正在硬件與智能的交互中誕生。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

具身智能“奇點(diǎn)”將至,商業(yè)化落地還有幾道坎?

一個(gè)新的物種,正在硬件與智能的交互中誕生。

文 | 極智GeeTech

在1927年上映的《大都會(huì)》中,全世界第一部包含人形機(jī)器人的角色Maria誕生。

時(shí)隔60多年,人形機(jī)器人從電影走向現(xiàn)實(shí)。2000年,本田的ASIMO成為世界上最著名的人形機(jī)器人之一,它能夠行走、跑步甚至進(jìn)行簡(jiǎn)單的交流。如今,人形機(jī)器人浪潮正全面席卷而來(lái)。

2024年,在大模型的加持下,一個(gè)足夠性感的故事正在展開(kāi):長(zhǎng)出“大腦”的人形機(jī)器人與科幻電影中通用機(jī)器人之間的差距正在縮短。在今年世界機(jī)器人大會(huì)上,27款人形機(jī)器人齊聚亮相,創(chuàng)歷屆之最。

作為人形機(jī)器人的內(nèi)核,具身智能站在大模型和自動(dòng)駕駛的臂膀上,其商業(yè)化進(jìn)程要比預(yù)期來(lái)得更快。故事的書寫者們,已在具身智能領(lǐng)域內(nèi)掀起一場(chǎng)諸神之戰(zhàn)。

具身智能 vs 自動(dòng)駕駛

對(duì)于具身智能,并沒(méi)有一個(gè)嚴(yán)格的官方定義,其通常是指本體與智能體的結(jié)合,本體實(shí)現(xiàn)與物理環(huán)境的交互,感知環(huán)境做出行動(dòng),智能體通過(guò)環(huán)境信息持續(xù)學(xué)習(xí)賦予智慧,是包含人工智能、機(jī)器人本體、認(rèn)知科學(xué)、神經(jīng)科學(xué)等多學(xué)科交叉的系統(tǒng)。

2024年5月,英國(guó)自動(dòng)駕駛獨(dú)角獸Wayve完成了10.5億美元C輪融資,這不僅是英國(guó)史上最大規(guī)模的AI融資,也是迄今為止全球排名前20名的AI融資之一。值得注意的是,Wayve聯(lián)合創(chuàng)始人兼CEO在完成融資當(dāng)天寫下這樣一句話:“具身智能注定會(huì)成為最具價(jià)值的AI應(yīng)用,未來(lái)還可能會(huì)改變我們與科技的交互方式。”

令人好奇的是,為什么一家自動(dòng)駕駛公司要在融資當(dāng)天提到具身智能,甚至還極為看好?

有人說(shuō),自動(dòng)駕駛的存在是取代司機(jī),具身智能的存在是要替代整個(gè)人類。當(dāng)然,這只是跟隨如今互聯(lián)網(wǎng)風(fēng)格的一種狹隘理解。自動(dòng)駕駛與具身智能的真正相似之處是,從技術(shù)到底層邏輯的相似。而一種更好的理解則是,既然2024是自動(dòng)駕駛的商業(yè)化元年,那么同樣地,它也見(jiàn)證了具身智能的“元年”。

根據(jù)全球頂級(jí)對(duì)沖基金Coatue發(fā)布的一篇關(guān)于“具身智能”的報(bào)告《The Path to General-Purpose Robots》(通往通用機(jī)器人之路),如果將具身智能的階段與自動(dòng)駕駛的階段做類比,“過(guò)去無(wú)人駕駛汽車從L1到L2花了大約20年,而從L2到現(xiàn)在的L4只用了不到10年;那么人型機(jī)器人從L1到L2用了大約50年,從L2到L4預(yù)計(jì)只需要不到5年?!?/p>

業(yè)界普遍認(rèn)為,人形是機(jī)器人領(lǐng)域形態(tài)發(fā)展的最終目標(biāo),如果用自動(dòng)駕駛的等級(jí)類比,即擁有高智能水平的人形機(jī)器人是L4。

與智能汽車類似,具身智能的實(shí)現(xiàn)包括“感知、決策、控制”三個(gè)主要環(huán)節(jié),并需要內(nèi)外部通信傳輸?shù)闹С帧?/p>

感知是具身智能交互世界的窗口,首先要通過(guò)環(huán)境傳感器、運(yùn)動(dòng)傳感器收集環(huán)境與自身狀態(tài)信息,作為決策環(huán)節(jié)的依據(jù);其次,要根據(jù)感知的信息以及任務(wù)目標(biāo),對(duì)自身行為進(jìn)行規(guī)劃決策,并向控制模塊發(fā)出指令;之后,將決策指令轉(zhuǎn)化為實(shí)際操作,實(shí)現(xiàn)與物理世界的互動(dòng);傳輸方面則強(qiáng)調(diào)低時(shí)延、多連接、連續(xù)性能力。

從商業(yè)化的角度來(lái)看,具身智能與自動(dòng)駕駛的發(fā)展路徑也或有高度擬合。以L2、L4區(qū)分,具身智能時(shí)代的人形機(jī)器人可以分為2種路徑:一種是在L2級(jí)別下逐步孵化出衍生的商業(yè)化產(chǎn)品,并且機(jī)器人的軀體形態(tài)也逐漸從輪式、足式、雙臂、到全身等等;而另一種則是L4級(jí)的打法,企業(yè)從一開(kāi)始就只做人形機(jī)器人,直接求解最難的問(wèn)題。通過(guò)大規(guī)模融資來(lái)穿越技術(shù)的發(fā)展周期。

自動(dòng)駕駛的商業(yè)化有三類機(jī)會(huì):首先是車本身,即L4自動(dòng)駕駛技術(shù)的機(jī)會(huì);其次是應(yīng)用場(chǎng)景,即L2級(jí)別自動(dòng)駕駛的機(jī)遇;最后是傳感器、毫米波、智能座艙等供應(yīng)鏈技術(shù)。

清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤認(rèn)為,無(wú)人駕駛將是未來(lái)五年內(nèi)最大的物理(具身)智能應(yīng)用,并且有望成為第一個(gè)通過(guò)“新圖靈測(cè)試”的具身智能系統(tǒng)。2025年將成為無(wú)人駕駛的“ChatGPT 時(shí)刻”,2030年無(wú)人駕駛成為主流,預(yù)計(jì)有10%的新車具備L4級(jí)別的自動(dòng)駕駛能力。

對(duì)具身智能來(lái)說(shuō),機(jī)器人從局部到全身整體的蛻變過(guò)程,也會(huì)帶來(lái)三類機(jī)遇。

首先是機(jī)器人本體的開(kāi)發(fā),企業(yè)若有條件在初期就推出人形,自然能搶奪市場(chǎng)先機(jī),讓后來(lái)者很難分一杯羹。

其次是場(chǎng)景機(jī)會(huì),目前機(jī)器人的應(yīng)用場(chǎng)景相對(duì)較少,但這也為行業(yè)提供了探索和發(fā)展的空間。

第三是產(chǎn)業(yè)上下游的機(jī)遇,上游包括智算中心的建設(shè)、算力芯片和端側(cè)模型等賦能機(jī)器人的關(guān)鍵技術(shù);下游則涉及到各種傳感器、關(guān)節(jié)模組,它們相當(dāng)于機(jī)器人的感官系統(tǒng),包括視覺(jué)、觸覺(jué)和運(yùn)動(dòng)感知等等。

很顯然,在具身智能中,“上難度”的人形機(jī)器人代表著需要穿越周期的L4,甚至是L5。

“大腦+小腦”,大模型實(shí)現(xiàn)具身智能

從馬斯克到AI知名學(xué)者李飛飛,從英偉達(dá)、OpenAI甚至到國(guó)內(nèi)幾乎所有科技大廠,全部紛紛涌入具身智能賽道,一致看好這個(gè)如今AI大模型加持下的機(jī)器人產(chǎn)業(yè)。

今年,人形機(jī)器人行業(yè)在具身智能領(lǐng)域取得了顯著的突破,基于通用大模型、數(shù)據(jù)集、高效計(jì)算架構(gòu)、多模態(tài)融合感知等關(guān)鍵技術(shù),為人形機(jī)器人安上聰明的“大腦”,使得人形機(jī)器人具備認(rèn)知和決策能力,推動(dòng)人形機(jī)器人走向?qū)嵱秒A段。

從大模型角度看,從最初的大語(yǔ)言模型(LLM),逐步邁向圖像-語(yǔ)言模型(VLM)乃至圖像-語(yǔ)言-動(dòng)作多模態(tài)模型(VLA),這一轉(zhuǎn)變不僅意味著機(jī)器人將擁有更加豐富的信息處理能力,更預(yù)示著它們將能夠跨越語(yǔ)言與視覺(jué)的界限,實(shí)現(xiàn)更為復(fù)雜、靈活的交互方式。在這樣的技術(shù)背景下,人形機(jī)器人正朝著具身智能的終極目標(biāo)邁進(jìn)。

“具身”特點(diǎn)使具身智能大模型與通用大模型存在顯著差異。傳統(tǒng)具身智能的研究以深度學(xué)習(xí)范式為主流,通過(guò)模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練具身系統(tǒng),使其習(xí)得技能。但傳統(tǒng)深度學(xué)習(xí)算法對(duì)數(shù)據(jù)集的依賴程度較高、遷移泛化能力較弱,對(duì)于訓(xùn)練數(shù)據(jù)以外的技能執(zhí)行起來(lái)較為困難。

大模型的出現(xiàn)為邁向通用人工智能提供契機(jī)。自谷歌Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)發(fā)布以來(lái),眾多研究者發(fā)現(xiàn)基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型在非語(yǔ)言類的任務(wù)中也能取得不錯(cuò)的效果,具有較強(qiáng)的泛化能力。此后大模型被引入具身智能領(lǐng)域,例如谷歌在2023年發(fā)布的PaLM-E模型,即是基于Transformer神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的具身多模態(tài)大語(yǔ)言模型。

相較通用大模型,具身智能大模型需要更多地考慮感知的細(xì)度與廣度、與環(huán)境的交互性以及控制的協(xié)調(diào)性。

具身智能系統(tǒng)不僅要能夠準(zhǔn)確地識(shí)別物體的類別和屬性,還要將視覺(jué)信息轉(zhuǎn)化為精確的空間坐標(biāo),以供機(jī)械臂、靈巧手等部位執(zhí)行精細(xì)操作和關(guān)節(jié)控制。

同時(shí),除文本、圖像、音頻、視頻等較為常見(jiàn)的模態(tài)數(shù)據(jù)外,具身智能還需要接收觸覺(jué)(如力的反饋、表面材質(zhì))、姿態(tài)(如空間坐標(biāo)、位移距離、旋轉(zhuǎn)角度)等信息,以實(shí)現(xiàn)對(duì)環(huán)境更全面和準(zhǔn)確的理解。

具身智能算法也需要理解物體的運(yùn)動(dòng)軌跡、事件的發(fā)展順序,才能做出及時(shí)而準(zhǔn)確的決策。

環(huán)境交互是具身智能區(qū)別于其他有實(shí)體機(jī)器人的重要特征,通過(guò)與環(huán)境的交互,持續(xù)學(xué)習(xí)并更新知識(shí),從而不斷提升算法性能。

目前,人形機(jī)器人廠商主要采用分層端到端的方案,即通過(guò)“大腦大模型”和“小腦大模型”互相配合完成任務(wù)。

“大腦大模型”大多基于多模態(tài)通用大模型,完成對(duì)任務(wù)的感知規(guī)劃,再通過(guò)API調(diào)度“小腦大模型”驅(qū)動(dòng)關(guān)節(jié)硬件完成執(zhí)行。

例如優(yōu)必選人形機(jī)器人Walker S接入百度文心大模型;智元機(jī)器人與科大訊飛簽署合作戰(zhàn)略協(xié)議,依托訊飛星火大模型進(jìn)行聯(lián)合開(kāi)發(fā);樂(lè)聚機(jī)器人夸父搭載的是華為盤古大模型。

在“小腦大模型”方面,在技能應(yīng)用上,智元機(jī)器人推出了通用的位姿估計(jì)模型UniPose、通用的抓取模型UniGrasp,通用的力控插拔模型UniPlug等一系列通用原子能力模型,可以配合大語(yǔ)言模型框架去做任務(wù)編排,使得機(jī)器人相比傳統(tǒng)協(xié)作機(jī)器人更容易部署,且具備一定的泛化能力。

優(yōu)必選則從應(yīng)用場(chǎng)景出發(fā),集合了工業(yè)場(chǎng)景垂域大模型技術(shù)、計(jì)算機(jī)視覺(jué)感知、語(yǔ)義VSLAM導(dǎo)航、學(xué)習(xí)型全身運(yùn)動(dòng)控制、多模態(tài)人機(jī)交互等人形機(jī)器人全棧式技術(shù),將人形機(jī)器人引入汽車產(chǎn)線的智能搬運(yùn)、質(zhì)量檢查和化學(xué)品操作等工位,推動(dòng)人形機(jī)器人在汽車工廠的大規(guī)模應(yīng)用。

值得注意的是,特斯拉Optimus使用完全端到端的神經(jīng)網(wǎng)絡(luò)大模型,借助傳感器和計(jì)算機(jī)視覺(jué)技術(shù),利用海量數(shù)據(jù)不斷優(yōu)化訓(xùn)練過(guò)程,直接生成關(guān)節(jié)控制序列。

在“小腦”操作大模型領(lǐng)域,各大廠商剛剛起步,多技術(shù)路徑同步發(fā)展。操作大模型決定了人形機(jī)器人在任務(wù)執(zhí)行側(cè)的準(zhǔn)確度,是大規(guī)模商業(yè)應(yīng)用場(chǎng)景落地的前提。

數(shù)據(jù)成為第一大瓶頸

業(yè)內(nèi)普遍認(rèn)為,缺乏規(guī)模龐大且高質(zhì)量數(shù)據(jù)是具身智能的發(fā)展難題之一。由于訓(xùn)練機(jī)器人所需的物理數(shù)據(jù)不如文本數(shù)據(jù)量大且易獲得,相較于圖文大模型千億規(guī)模的數(shù)據(jù)訓(xùn)練量,目前機(jī)器人數(shù)據(jù)集量遠(yuǎn)不能滿足機(jī)器人達(dá)到通用大模型的需求。

目前,解決人形機(jī)器人訓(xùn)練數(shù)據(jù)短缺的問(wèn)題,一方面通過(guò)強(qiáng)化學(xué)習(xí)算法提高模型訓(xùn)練效率,一方面則通過(guò)仿真平臺(tái)合成數(shù)據(jù),建立數(shù)據(jù)開(kāi)放生態(tài)。

數(shù)據(jù)對(duì)于訓(xùn)練人形機(jī)器人具有至關(guān)重要的作用,它直接影響到機(jī)器人的感知能力、思考和決策能力以及行動(dòng)執(zhí)行能力。大模型通過(guò)大量數(shù)據(jù)學(xué)習(xí),讓機(jī)器人理解任務(wù)意圖,并遷移到下游任務(wù)中,高質(zhì)量訓(xùn)練數(shù)據(jù)能夠有效提升人形機(jī)器人場(chǎng)景泛化能力。

在解決高質(zhì)量具身智能數(shù)據(jù)不足的問(wèn)題上,可以通過(guò)模擬環(huán)境合成數(shù)據(jù)輔助真實(shí)世界數(shù)據(jù)以豐富訓(xùn)練數(shù)據(jù)來(lái)源,還可以構(gòu)建更大規(guī)模、更多模態(tài)的共享數(shù)據(jù)集。

使用仿真及合成數(shù)據(jù)能夠降低數(shù)據(jù)收集成本并提高開(kāi)發(fā)效率。合成數(shù)據(jù)的常見(jiàn)來(lái)源是借助大量符合現(xiàn)實(shí)世界物理規(guī)則的虛擬仿真場(chǎng)景學(xué)習(xí)技能和策略,后遷移到真實(shí)世界。與真實(shí)采集數(shù)據(jù)相比,基于仿真環(huán)境的合成數(shù)據(jù)具有采集成本低、采集速度快、可擴(kuò)展性強(qiáng)、標(biāo)注準(zhǔn)確度高的優(yōu)點(diǎn)。

共建高質(zhì)量開(kāi)源數(shù)據(jù)集,可以實(shí)現(xiàn)數(shù)據(jù)最大化利用。由于數(shù)據(jù)獲取的高成本、長(zhǎng)周期以及隱私安全問(wèn)題,大部分具身智能研究組織和企業(yè)僅限于在某個(gè)特定環(huán)境中收集數(shù)據(jù),數(shù)據(jù)共享的缺乏導(dǎo)致重復(fù)勞動(dòng)和資源浪費(fèi),形成“數(shù)據(jù)孤島”。

2023年,DeepMind與眾多科研機(jī)構(gòu)展開(kāi)合作,構(gòu)建了真實(shí)機(jī)器人開(kāi)源數(shù)據(jù)集Open X-Embodiment,包含22個(gè)機(jī)器人超過(guò)100萬(wàn)個(gè)軌跡片段、500多項(xiàng)技能、16多萬(wàn)項(xiàng)任務(wù)。基于此開(kāi)源數(shù)據(jù)集訓(xùn)練的具身智能控制基礎(chǔ)模型RT-X,表現(xiàn)出在跨場(chǎng)景、多任務(wù)應(yīng)用中超越此前基于特定場(chǎng)景和數(shù)據(jù)集下的技能水平。

具身智能行至爆發(fā)前夜

從1973 年早稻田大學(xué)開(kāi)發(fā)的世界上第一款人形機(jī)器人WABOT-1,到特斯拉的人形機(jī)器人Optimus、Figure AI的Figure 02,機(jī)器人的移動(dòng)能力、操作能力、交互能力已經(jīng)發(fā)生了巨大的變化,過(guò)去兩年,多模態(tài)大模型的加持,讓機(jī)器人借著具身智能的快速發(fā)展進(jìn)入了一個(gè)新的階段。

2023年,行業(yè)新品迭出不窮,特斯拉、Figure AI,以及宇樹(shù)、智元、傅利葉等一批國(guó)產(chǎn)品牌集中在2023年推出首款人形機(jī)器人產(chǎn)品,銀河通用、加速進(jìn)化、星動(dòng)紀(jì)元等廠商紛紛成立,促成行業(yè)新品迭出的欣欣向榮之象。

行至2024年,優(yōu)必選、Apptronik、特斯拉、Figure AI等公司開(kāi)始陸續(xù)與汽車主機(jī)廠展開(kāi)合作,將人形機(jī)器人落地汽車制造場(chǎng)景,初探商業(yè)化可能。

不過(guò),目前絕大部分具身智能公司還處于不斷迭代的Demo階段,何時(shí)能夠?qū)a(chǎn)品與某一場(chǎng)景很好地結(jié)合并商業(yè)化落地,是行業(yè)關(guān)心的重點(diǎn)問(wèn)題。

根據(jù)中金研究院及研究部聯(lián)合研究發(fā)布的《AI經(jīng)濟(jì)學(xué)》報(bào)告,從任務(wù)角度看,人形機(jī)器人“具身”的特點(diǎn)使其尤其適合力量型、靈巧型及空間移動(dòng)導(dǎo)航等體力任務(wù),例如上下料、維修、巡檢等。同時(shí),其“智能體”特征使其具備人的智能與情感,能夠在教培輔導(dǎo)、服務(wù)接待、人文關(guān)懷等支持型任務(wù)中發(fā)揮作用,例如教育、講解導(dǎo)引、養(yǎng)老助殘等。

大部分行業(yè)都是由多類任務(wù)組合而成的,如果向終局去看,人形機(jī)器人有望在各個(gè)行業(yè)找到適合自身落地的應(yīng)用場(chǎng)景。比如,服務(wù)業(yè)前臺(tái)(營(yíng)業(yè)部客戶接待)、采礦業(yè)(物料挖掘搬運(yùn))、水電熱氣(電力巡檢)、看護(hù)養(yǎng)老業(yè)(康養(yǎng)陪護(hù))、裝備制造業(yè)(工業(yè)制造)、醫(yī)療衛(wèi)生業(yè)(手術(shù)機(jī)器人)、住宿和餐飲業(yè)(餐飲服務(wù)機(jī)器人)等等,不一而足。

可以說(shuō),人形機(jī)器人的滲透不會(huì)一蹴而就,隨著技術(shù)不斷成熟,人形機(jī)器人不僅能夠有更自然的交互性能,實(shí)現(xiàn)在交互要求更高的公共服務(wù)場(chǎng)景以及個(gè)人家用場(chǎng)景中的應(yīng)用,還能提升對(duì)復(fù)雜場(chǎng)景的應(yīng)對(duì)能力,進(jìn)而開(kāi)啟在高危、救援、多變環(huán)境下的滲透??傮w趨勢(shì)是由專用場(chǎng)景向通用場(chǎng)景漸次滲透,最終實(shí)現(xiàn)在全行業(yè)各場(chǎng)景的落地。

具身智能時(shí)代的機(jī)器人,最終會(huì)擁有什么樣的形態(tài)?這個(gè)問(wèn)題的背后,歸根結(jié)底是人類創(chuàng)造者對(duì)機(jī)器人的想象力。而無(wú)論是怎樣的想象,可預(yù)見(jiàn)的未來(lái)機(jī)器人或許都有類似的含義:一個(gè)在視覺(jué)、學(xué)習(xí)、決策等多維度擁有更高智能水平的機(jī)器人。

一個(gè)新的物種,正在硬件與智能的交互中誕生。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。