資訊在沃

英偉達機器人新范式:VLA與遙操落幕,世界模型引領新未來

   發布時間:2026-05-10 08:38 作者:陸辰風

在紅杉AI Ascent 2026大會上,英偉達機器人方向負責人Jim Fan以一場顛覆性的演講引發行業震動。他宣布視覺-語言-動作模型(VLA)與遙操作技術即將退出歷史舞臺,取而代之的是以世界模型為核心的新范式。這場被命名為"機器人聯盟:終局之戰"的演講,揭示了具身智能領域正在經歷的根本性變革。

Jim Fan通過對比語言模型的發展軌跡,提出了機器人領域的"大平行"戰略。他指出,GPT系列通過預測下一個詞元實現語法學習,而機器人模型應當模擬物理世界的下一個狀態。這種類比并非簡單模仿,而是要求構建能夠理解重力、光照、反射等物理規律的通用模型。英偉達最新發布的Dream Zero系統已展現出這種能力——當輸入"將代碼移動到泰勒·斯威夫特圖片上"的指令時,系統能自動理解視覺元素與動作的關聯。

傳統VLA模型的缺陷在演講中被重點剖析。這類模型將70%參數分配給語言處理,導致視覺與動作模塊成為"二等公民"。Jim Fan展示的對比實驗顯示,當要求機器人處理未見過的新物體時,VLA模型的成功率不足30%,而基于世界模型的新系統能達到65%。這種差距源于新范式將物理規律學習置于核心地位,而非依賴語言標注數據。

數據策略的革新同樣引人注目。英偉達宣布將徹底轉向人類傳感器數據(Sensorized Human Data),未來兩年內遙操作數據的占比將降至5%以下。研究團隊通過分析200萬小時的第一視角視頻,發現了機器人領域的"縮放定律"——當數據量突破臨界點后,模型能自發涌現出物體操作、空間推理等復雜能力。這種數據驅動的方法,使得機器人訓練成本較傳統方法降低了80%。

技術突破背后是算力與算法的深度融合。英偉達提出的"算力=環境=數據"公式,揭示了新一代訓練框架的本質。在仿真環境中,單個GPU集群現在能同時模擬10萬個平行世界,這種規模效應使得模型能在48小時內完成傳統需要6個月的訓練任務。DreamDojo系統的實時渲染能力,甚至能讓研究人員"看到"機器人決策時的思維過程——當視頻預測出現偏差時,動作執行失敗的概率高達92%。

這場變革正在重塑整個機器人科技樹。Jim Fan預測,物理圖靈測試將在2-3年內被突破,2040年前將實現物理API標準化與自動化研究。英偉達最新路線圖顯示,2027年將推出具備常識推理能力的機器人基礎模型,2030年實現復雜場景下的自主服務。這些目標若能實現,將標志著具身智能從實驗室走向日常生活的關鍵轉折。

 
 
更多>同類內容
全站最新
熱門內容