具身智能新突破：LWD系統助力機器人真實世界“自主進化”-游戲-沃資訊

具身智能新突破：LWD系統助力機器人真實世界“自主進化”

發布時間：2026-05-02 05:19 來源：快訊作者：唐云澤

具身智能發展正面臨關鍵瓶頸——真實世界數據與經驗的匱乏，成為制約其邁向規?；瘧玫暮诵奶魬?。盡管VLA等大模型在機器人預訓練階段取得突破，但當機器人進入真實場景時，模型能力提升仍高度依賴人工標注與重復訓練，難以應對物理世界的復雜性與動態性。這一現狀表明，具身智能尚未突破“實驗室到現實”的臨界點，而突破的關鍵在于獲取大規模、高質量的真實交互數據。

針對這一難題，上海創智學院與智元具身研究中心聯合提出LWD（Learning While Deploying）大規模強化學習訓練系統，嘗試將“部署”過程轉化為持續學習的核心環節。該系統通過構建真實世界數據閉環，讓機器人在執行任務的同時自主生成學習信號，形成“執行-反饋-優化”的自主進化鏈條。這一方案跳出了傳統依賴人工示教或仿真數據的局限，為具身智能的規?；涞靥峁┝诵侣窂?。

LWD的核心創新在于構建了強化學習驅動的閉環數據飛輪。在真實任務中，機器人集群產生的所有交互數據——包括成功軌跡、試錯恢復過程甚至人類引導的失敗案例——均被統一回傳至云端共享緩沖區。強化學習機制將這些傳統意義上的“無效數據”轉化為優化模型的關鍵信號，使機器人能夠從錯誤中學習風險規避策略，從成功中提煉通用操作模式。隨著部署規模擴大，數據飛輪加速運轉，云端更新的策略定期下發至終端，形成持續優化的自主循環。

為應對真實世界數據的復雜性，LWD引入了分布隱式價值學習（DIVL）算法。傳統算法通過單一評分衡量機器人表現，在動態環境中易產生誤判；而DIVL通過分析動作的概率分布，使機器人能夠理解不同操作的風險等級與潛在收益。例如，在泡茶任務中，機器人可通過分析水溫、時間等變量的分布特征，自主判斷當前動作的合理性，即使缺乏明確獎勵信號也能持續優化策略。這一突破有效解決了真實場景中獎勵稀疏、評價模糊的難題。

針對VLA模型多步決策的特點，LWD結合Q-learning with Adjoint Matching（QAM）技術，優化了策略更新路徑。傳統方法需全局重推策略，計算成本高且易偏離目標；QAM則通過局部參數調整實現快速迭代，使機器人能夠在保持任務連續性的同時高效學習。這一改進顯著提升了大規模部署時的學習效率，為復雜長程任務的突破奠定了基礎。

在智元G1雙臂機器人集群的實測中，LWD展現了突破性表現。測試涵蓋商超動態補貨、泡茶、調酒等八項多模態任務，其中長程操作任務持續時間達5-8分鐘，涉及數十個連續物理交互步驟。實驗數據顯示，LWD訓練的通用策略在所有任務中平均成功率達0.95，較傳統行為克隆方法提升25%，較先進離線強化學習基線提升9-13%。尤其在調酒、裝鞋等長程任務中，LWD通過中間錯誤恢復與長期信用分配機制，實現了成功率的大幅躍升，驗證了真實世界經驗持續學習對復雜操作的關鍵作用。

LWD的提出標志著具身智能能力迭代方式的范式轉變。傳統模式下，“部署”被視為模型訓練的終點；而LWD證明，自主改進應成為機器人策略的內在屬性。通過將學習過程延伸至真實場景，機器人能夠突破人工標注數據的限制，從物理世界的無序交互中自主提取優化信號。這一轉變不僅推動了算法框架的升級，更為具身智能在開放環境中的商業化應用開辟了新可能——只有具備持續進化能力的機器人，才能真正融入千行百業的復雜場景，釋放長期商業價值。

更多>同類內容