資訊在沃

檢索增強新突破:為機器人裝上“三維空間導航儀” 提升操作精準度

   發布時間:2026-04-30 15:10 作者:楊凌霄

在機器人技術領域,以GPT、Gemini為代表的視覺語言大模型(VLM)已展現出強大的語言理解與場景推理能力,但在將指令轉化為實際物理操作時仍面臨關鍵挑戰。這類模型雖能解析人類語言指令,卻難以精準把握三維空間中的物體位置、朝向及可操作關系,導致生成的規劃方案常因忽視物理約束而無法執行。如何讓機器人獲得可遷移的三維空間知識,成為具身智能研究的核心突破點。

近期發表于《科學·機器人學》的一項研究提出了名為RAM(Retrieval-Augmented Manipulation)的創新框架,通過構建可檢索的"三維物體知識庫"為VLM補充空間認知能力。該框架不依賴重新訓練模型,而是在任務規劃階段提供精細化的空間上下文,使機器人既能理解"要做什么",更能明確"如何操作"。研究團隊以香港中文大學為主導,通過14項真實機械臂實驗驗證了其有效性。

傳統VLM的局限性源于其訓練范式——多數模型基于二維圖像與文本配對數據構建,雖擅長識別視覺內容,卻缺乏對深度、尺度及物理交互的直接經驗。盡管業界嘗試通過三維數據微調提升能力,但高質量3D數據的采集與標注成本高昂,計算資源消耗巨大。RAM框架另辟蹊徑,將空間知識存儲于外部知識庫,通過實時檢索為模型提供場景適配的空間信息。

該框架包含三大核心模塊:首先是物體類別級知識引擎,研究團隊為不同物體類別建立標準化三維模板,標注幾何屬性(如尺寸、對稱性)與操作屬性(如抓取點、功能平面)。這種類別級建模方式可覆蓋同類物體的多種變體,顯著降低數據需求。其次是三維視覺接地模型,其功能是將模板中的通用空間描述映射到真實場景中的具體物體實例。該模塊通過合成數據訓練,在真實實驗中展現出對未見物體的泛化能力。最后是檢索增強任務規劃器,它將空間信息轉化為結構化文本輸入VLM,使模型能生成包含抓取點選擇、平面對齊方向等細粒度約束的操作規劃,再通過軌跡優化轉化為機器人可執行的動作。

實驗環節覆蓋了31個物體實例與11個物體類別,包含單物體單步驟、多物體單步驟及多物體多步驟三類語言指令驅動任務。在120次重復測試中,RAM框架取得89.17%的平均成功率,其中最復雜的多物體多步驟任務成功率達80%。研究還測試了圖像引導操作能力,機器人僅需參考目標擺放圖即可理解物體相對位置與朝向。在餐具擺放任務中,常規平面場景成功率達92%,復雜高低平面場景成功率仍保持72%,突破了傳統方法對俯視參考圖的依賴。

針對需要空間推理的自主決策任務,RAM框架展現出顯著優勢。在清理桌面場景中,機器人需根據桌面高度、垃圾桶尺寸及物體位置選擇清掃方案。當直接清掃不可行時,系統能規劃借助簸箕的間接方案,平均成功率達65%。這表明通過顯式獲取空間約束,機器人可排除物理上不可行的語義方案,選擇更可靠的操作策略。

研究團隊進一步探索了框架在非剛體物體操作中的擴展性。對于筆記本電腦、抽屜等鉸接物體,采用多模板匹配策略預設不同開合狀態,通過觀測結果匹配最接近模板以估計旋轉軸或推動方向。在柔性物體操作方面,以疊衣服任務為例,將折疊過程拆解為展開、疊袖等階段,并為各狀態匹配相應模板。實驗還初步結合觸覺傳感器,當抓取過程中物體因重心偏移發生滑動時,系統可利用觸覺反饋重新規劃抓取姿勢。

 
 
更多>同類內容
全站最新
熱門內容