目前的 VLA 模型(如 OpenVLA、RT-X 等)大多部署在傳統的剛性串聯機械臂(如 UR5)上。然而,基于學習的策略模型(Learning-based control)本質上存在不可預測性(Unpredictability)。一旦大模型在推理時產生幻覺或動作偏差,沉重且僵硬的剛性機械臂J易對周圍的人類造成嚴重的物理傷害。
方法鏈路很清晰:輸入端收集軟體機器人(Continuum Soft Robot,名為 Embuddy)在不同視角的示范數據 → 算法適配層針對軟體機器人的非線性動力學特征,將傳統的動作空間映射到柔性控制空間 → 微調層分別對當前Z先進的 OpenVLA(采用 OFT 微調)和 (流匹配架構)進行訓練 → 執行端在不需要額外復雜碰撞檢測算法的情況下,直接依靠軟體機器人本身的物理柔順性(Physical Compliance),安全地執行諸如“給人喂棉花糖”這種JG風險的物理交互任務。
具體算法實現細節
Bridging Embodiment Gaps 的核心設計圍繞如何讓為剛性機器人打造的 VLA 模型,成功跨越“具身鴻溝(Embodiment Gap)”,適配到軟體機器人上。其實現聚焦三個關鍵模塊:具身硬件適配與數據流(硬件基礎)、不同 VLA 架構的微調對比(算法核心)、極限人機交互與容錯驗證(落地場景)。
關鍵模塊一:軟體具身適配與多視角構建
這個模塊要解決的,是“如何讓大模型看懂并控制軟體手臂”。
雙平臺對照基準:為了嚴謹對比,團隊同時設置了傳統的剛性機械臂 UR5(作為 Baseline)和軟體機器人 Embuddy。
視角處理與對齊:如圖 3 和圖 4 所示,實驗同樣采用了第三人稱視角(3rd-person)和腕部視角(Wrist camera)。需要注意的是,軟體機器人的腕部在運動時形變極大,視野晃動劇烈,這極大考驗了 VLA 模型對非平穩視覺輸入的空間表征與泛化能力
關鍵模塊二:OpenVLA 與的部署與性能對抗
解決“哪種 VLA 架構更適合控制軟體機器人”的問題。
損失函數與收斂:如圖 5 所示,團隊完整記錄了 OpenVLA-OFT(正交微調)和基于流匹配(Flow Matching)的 模型在軟體機器人上的訓練損失曲線。
實驗證明,即便是在軟體驅動這種全新的動作空間下,兩者都能在少量專家數據支持下穩定收斂。成功率與控制表現:如圖 2 所示的成功率對比圖表,在抓取、放置等標準任務中, 憑借其連續的時間流生成機制,在處理軟體機器人復雜的連續動作輸出時,普遍展現出了比 OpenVLA 更高的任務成功率和更平滑的物理控制效果。
關鍵模塊三:高風險人機交互與“柔性容錯”驗證
展示了軟體機器人結合大模型后d一無二的落地應用價值。
常規桌面操作動態對比:圖 6 展示了 UR5 在執行常規“把橙子放在盤子里”任務時的剛性運動分鏡。圖 7 則展示了軟體機器人 Embuddy 在執行類似任務時的柔性運動軌跡。
雖然 VLA 能夠驅動兩者準確完成任務,但在真實家庭環境中,剛性軌跡一旦遭遇不可預見的人類闖入,往往是致命的。
極限人機交互測試(喂棉花糖):這是本文的安全高光時刻。如圖 8 所示,團隊讓 VLA 模型控制軟體機器人執行極高風險的“給人類嘴里喂棉花糖”任務。在執行過程中,由于人類頭部的微小晃動,VLA 模型偶爾會產生位置預估偏差。
但關鍵在于,當軟體手臂接觸到人類面部時,它只是發生了極其安全的彈性形變,并未造成任何機械撞擊傷害,并在形變后順滑地調整姿態完成了投喂任務。這種“硬件J別的絕對兜底”,徹底釋放了具身大模型在家庭看護與醫療輔助領域的潛力。
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |