近日,全球物理空間智能AI應用領航者拓元智慧(X-Era AI)聯(lián)合中山大學、鵬城實驗室等頂尖科研機構(gòu)重磅發(fā)布分層推理具身基礎模型RoBridge。該模型在保持VLM語義理解優(yōu)勢的同時,成功將強化學習的過程技能成功率提升至新高度。
論文:RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
項目地址:https://abliao.github.io/RoBridge
1.背景:機器人操作技術(shù)的雙重困境
機器人操作技術(shù)長期受限于兩大瓶頸:
1. 1程序性技能困境。
為了獲得根據(jù)指令操縱對象的能力,RDT和π0等VLA模型通常采用數(shù)據(jù)驅(qū)動的軌跡擬合方法。然而,當面對環(huán)境變化時,包括波動的照明條件、相機姿態(tài)偏差和環(huán)境變化,這些方法經(jīng)常遭受災難性的性能下降。強化學習雖然穩(wěn)健,但具有試錯性和低學習效率的特點,使其在實際環(huán)境中的適用性較低。
?
?
圖1. 程序性技能方法、陳述性技能方法和RoBridge方法比較。
1.2 陳述性技能困境。
最近的工作將視覺語言模型 (VLM) 集成到機器人系統(tǒng),如 ReKep和 OmniManip,它們使用多模態(tài)大模型來生成開放域任務的操作指令。雖然這些模型在理解方面表現(xiàn)出色,但它們?nèi)狈唧w經(jīng)驗,并且需要將輸出限制為可執(zhí)行動作。這種方法迫使語言模型在沒有物理直覺的情況下處理時空推理,這通常會導致難以置信的任務規(guī)劃。例如,在任務 “將塊 A 放在塊 B 上” 中,對空間的理解不足往往會導致這種方法產(chǎn)生致命缺陷的動作序列。
2. RoBridge框架
本文提出的RoBridge框架如圖所示,主要包括三個核心組件:高層認知規(guī)劃器(High-level Cognitive Planner, HCP)、不變可操作表示(Invariant Operable Representation, IOR)和通用具身智能體(Generalist Embodied Agent, GEA)。整體流程如下:首先,HCP根據(jù)觀察信息和任務指令將復雜任務分解為多個原子動作;其次,針對每個原子動作,HPC結(jié)合基礎模型生成IOR表示;最后,GEA基于該表示執(zhí)行具體操作,整個過程通過閉環(huán)控制進行調(diào)節(jié)。各部分說明如下:
?
?
圖2. RoBridge框架
(1)高層認知規(guī)劃器(HCP)
HCP由視覺語言模型(如GPT-4o)和基礎模型API(如GroundingDINO、SAM和Track-Anything)構(gòu)成。給定當前RGB圖像?和指令?,通過VLM將任務分解為若干原子動作?,其中表示動作類型為操作對象,為目標位置(可選)。如圖示例中,任務被分解為抓取黃色圓柱體、移動至圓形插槽等四個原子動作。HCP通過基礎模型API進行對象分割,并結(jié)合傳感器數(shù)據(jù)生成IOR表示。
(2)不變可操作表示(IOR)
每個原子動作對應的IOR表示由四元組構(gòu)成:
?
?
其中:Mi 包含夾爪、操作對象和目標的三視角掩膜 。Di 包含對應的一視角掩膜深度信息 。Ci 包含末端執(zhí)行器位姿和運動方向約束
通過GroundingDINO和SAM實現(xiàn)對象分割,結(jié)合VLM進行對象選擇。對于存在方向約束的任務(如打開抽屜),HCP提供歸一化方向向量?。IOR表示具有領域不變性,可有效降低環(huán)境變化對模型的影響。
(3)通用具身智能體(GEA)
在每個時間步t生成更新后的,通過策略函數(shù)映射為機械臂動作。針對“reach”類動作采用運動規(guī)劃,其他復雜動作結(jié)合強化學習與模仿學習進行訓練。
(4)閉環(huán)控制
采用雙頻更新機制:
-?高頻控制:通過Track-Anything實時更新掩膜和深度
-?低頻控制:結(jié)合GPT-4o和夾爪狀態(tài)判斷任務狀態(tài)(成功/失敗/正常),失敗時重新生成
3. 通用具身智能體訓練
如圖所示,訓練過程分為三個階段:
?
?
圖3. 通用具身智能體訓練示意圖。
(1)強化學習階段
為每個任務訓練專家策略,引入機械臂位姿、物體形狀和相機偏移等領域的隨機化以提升魯棒性。
(2)模仿學習階段
基于專家數(shù)據(jù)訓練通用策略,輸入為廣義交互表示。新增以下領域隨機化:
1. 深度圖增強:高斯偏移、模糊、隨機掩膜
? ? ? ? 2. 掩膜增強:隨機偏移、噪聲注入
(3)持續(xù)技能聚合
采用改進的DAgger算法解決模仿學習的誤差累積問題(算法1):
1.?初始化各任務權(quán)重為均等值
2.?定義分段函數(shù)將獎勵映射為權(quán)重調(diào)整值
3. 迭代過程中動態(tài)調(diào)整任務采樣頻率,優(yōu)先采集困難任務
4. 記錄失敗軌跡并由專家生成修正數(shù)據(jù)
?
?
4. 實驗
4.1 架構(gòu)與訓練
我們?yōu)槊總€任務單獨訓練強化學習專家策略,采用DRQ-v2算法進行訓練。輸入包含RGB圖像、機器人本體感知和任務獨熱編碼,輸出低層級動作。通用智能體采用與DRQ-v2相同的網(wǎng)絡架構(gòu),輸入為不變可操作表示(IOR),其中原子動作采用獨熱編碼表示。
4.2 硬件配置
真實實驗采用Kinova Gen3機械臂,配置兩個Realsense D435i相機:腕部相機提供第一視角,固定相機提供第三視角。 設計四類任務:(1)物體抓取, (2)平面清掃 ,(3)按鈕按壓, (4)抽屜開啟。前兩類測試未見物體,評估泛化能力。另設計多階段積木插槽任務,評估長時程任務處理能力。
?
?
圖4. RoBridge 在真實任務中表現(xiàn)卓越,適應真實復雜環(huán)境,展現(xiàn)良好泛化能力。
4.3 仿真基準
在Metaworld和Robosuite仿真環(huán)境中進行測試。Metaworld選取50個任務,在零樣本泛化測試中35個用于訓練,5個用于零樣本測試任務。
4.4 基線方法
DRQ-v2:多任務強化學習基準
SayCan:基于LLM的技能規(guī)劃
PSL/ManipGen:動作級技能庫擴展方法
ReKep:關鍵點推理方法
RDT/π0系列:端到端擴散模型方法
4.5 仿真結(jié)果
下表顯示在Metaworld基準測試中,RoBridge平均成功率82.12%,較最優(yōu)基線提升11.28%。在背景/光照/色彩/視角變化下均表現(xiàn)最佳魯棒性。
?
?
4.6真實場景結(jié)果
下表顯示在真實任務中,RoBridge平均成功率83.3%,長時程任務平均完成階段數(shù)3.0(表3)。可視化結(jié)果顯示相比π0和ReKep,本方法能穩(wěn)定處理復雜物理交互。
?
?
圖5. 真實機器人實驗。
?
?
4.7 零樣本任務泛化
下表顯示在5個全新任務(物料分揀/物體取出/手柄按壓/托盤滑動/清掃入庫)中,RoBridge平均成功率75%,展現(xiàn)優(yōu)異的零樣本遷移能力。
?
?
5. 總結(jié)
本文提出了RoBridge,一種基于分層認知架構(gòu)的機器人操作基礎模型,通過突破端到端VLA模型的瓶頸,以單張A100僅需1天訓練的高效范式實現(xiàn)三大突破:其一,通過分離高層語義理解與底層物理控制,將VLM的開放場景認知優(yōu)勢與強化學習的精確操作能力深度融合;其二,創(chuàng)新引入不變可操作表示(IOR)作為符號化中間層,有效解決傳統(tǒng)模型因跨模態(tài)特征錯位導致的"腦手不一"問題;其三,零樣本泛化即可達成75%的新任務成功率,僅需5個真實樣本即可實現(xiàn)模擬到現(xiàn)實的泛化成功率(83%),相比RDT、π0等基線模型提升超40%。該架構(gòu)通過高級認知規(guī)劃器(HCP)、IOR符號橋梁和通用具身代理(GEA)的三級協(xié)同,在顯著降低訓練成本的同時,顯著提升開放式任務的操作魯棒性,為破解機器人"知行合一"難題提供了可擴展的技術(shù)路徑。
作為全球領先的物理空間智能AI應用服務商,拓元智慧持續(xù)攻關具身智能核心技術(shù),逐步構(gòu)建具身智能通用能力。此次分層推理具身基礎模型RoBridge的發(fā)布,標志著拓元智慧在具身智能通用能力建設上的又一里程碑。
未來,拓元智慧將繼續(xù)深化與學術(shù)界、產(chǎn)業(yè)界的協(xié)同創(chuàng)新,以“物理空間智能引擎”為核心,推動具身智能技術(shù)在實體經(jīng)濟的規(guī)模化落地。
關于拓元智慧
拓元智慧(X-Era AI)由AI技術(shù)領域國際知名專家團隊創(chuàng)立于2022年。公司聚焦于研發(fā)新一代物理空間智能引擎,打造線下零售、空間設計、工業(yè)制造領域的AI應用與新生態(tài),構(gòu)建具身智能通用能力。公司秉持技術(shù)與業(yè)務閉環(huán)的雙輪驅(qū)動,以“端云協(xié)同”的服務框架,推動AI模型從數(shù)字空間邁進物理世界,拓展人機共榮的新紀元。
?
(免責聲明:本文為本網(wǎng)站出于傳播商業(yè)信息之目的進行轉(zhuǎn)載發(fā)布,不代表本網(wǎng)站的觀點及立場。本文所涉文、圖、音視頻等資料之一切權(quán)力和法律責任歸材料提供方所有和承擔。本網(wǎng)站對此咨詢文字、圖片等所有信息的真實性不作任何保證或承諾,亦不構(gòu)成任何購買、投資等建議,據(jù)此操作者風險自擔。)