資訊在沃

具身智能新突破:LWD系統助力機器人真實世界“自主進化”

   發布時間:2026-05-02 05:19 作者:唐云澤

具身智能發展正面臨關鍵瓶頸——真實世界數據與經驗的匱乏,成為制約其邁向規?;瘧玫暮诵奶魬?。盡管VLA等大模型在機器人預訓練階段取得突破,但當機器人進入真實場景時,模型能力提升仍高度依賴人工標注與重復訓練,難以應對物理世界的復雜性與動態性。這一現狀表明,具身智能尚未突破“實驗室到現實”的臨界點,而突破的關鍵在于獲取大規模、高質量的真實交互數據。

針對這一難題,上海創智學院與智元具身研究中心聯合提出LWD(Learning While Deploying)大規模強化學習訓練系統,嘗試將“部署”過程轉化為持續學習的核心環節。該系統通過構建真實世界數據閉環,讓機器人在執行任務的同時自主生成學習信號,形成“執行-反饋-優化”的自主進化鏈條。這一方案跳出了傳統依賴人工示教或仿真數據的局限,為具身智能的規?;涞靥峁┝诵侣窂?。

LWD的核心創新在于構建了強化學習驅動的閉環數據飛輪。在真實任務中,機器人集群產生的所有交互數據——包括成功軌跡、試錯恢復過程甚至人類引導的失敗案例——均被統一回傳至云端共享緩沖區。強化學習機制將這些傳統意義上的“無效數據”轉化為優化模型的關鍵信號,使機器人能夠從錯誤中學習風險規避策略,從成功中提煉通用操作模式。隨著部署規模擴大,數據飛輪加速運轉,云端更新的策略定期下發至終端,形成持續優化的自主循環。

為應對真實世界數據的復雜性,LWD引入了分布隱式價值學習(DIVL)算法。傳統算法通過單一評分衡量機器人表現,在動態環境中易產生誤判;而DIVL通過分析動作的概率分布,使機器人能夠理解不同操作的風險等級與潛在收益。例如,在泡茶任務中,機器人可通過分析水溫、時間等變量的分布特征,自主判斷當前動作的合理性,即使缺乏明確獎勵信號也能持續優化策略。這一突破有效解決了真實場景中獎勵稀疏、評價模糊的難題。

針對VLA模型多步決策的特點,LWD結合Q-learning with Adjoint Matching(QAM)技術,優化了策略更新路徑。傳統方法需全局重推策略,計算成本高且易偏離目標;QAM則通過局部參數調整實現快速迭代,使機器人能夠在保持任務連續性的同時高效學習。這一改進顯著提升了大規模部署時的學習效率,為復雜長程任務的突破奠定了基礎。

在智元G1雙臂機器人集群的實測中,LWD展現了突破性表現。測試涵蓋商超動態補貨、泡茶、調酒等八項多模態任務,其中長程操作任務持續時間達5-8分鐘,涉及數十個連續物理交互步驟。實驗數據顯示,LWD訓練的通用策略在所有任務中平均成功率達0.95,較傳統行為克隆方法提升25%,較先進離線強化學習基線提升9-13%。尤其在調酒、裝鞋等長程任務中,LWD通過中間錯誤恢復與長期信用分配機制,實現了成功率的大幅躍升,驗證了真實世界經驗持續學習對復雜操作的關鍵作用。

LWD的提出標志著具身智能能力迭代方式的范式轉變。傳統模式下,“部署”被視為模型訓練的終點;而LWD證明,自主改進應成為機器人策略的內在屬性。通過將學習過程延伸至真實場景,機器人能夠突破人工標注數據的限制,從物理世界的無序交互中自主提取優化信號。這一轉變不僅推動了算法框架的升級,更為具身智能在開放環境中的商業化應用開辟了新可能——只有具備持續進化能力的機器人,才能真正融入千行百業的復雜場景,釋放長期商業價值。

 
 
更多>同類內容
全站最新
熱門內容