在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

螞蟻靈波再發(fā)力!LingBot-VA讓機(jī)器人“腦補(bǔ)”未來,通用機(jī)器人迎新突破

   發(fā)布時(shí)間:2026-01-31 03:39 作者:任飛揚(yáng)

機(jī)器人領(lǐng)域迎來重大突破——螞蟻靈波團(tuán)隊(duì)近日開源了全球首個(gè)面向通用機(jī)器人控制的因果視頻-動(dòng)作世界模型LingBot-VA,這項(xiàng)技術(shù)讓機(jī)器人首次具備"腦補(bǔ)未來"的能力。傳統(tǒng)機(jī)器人依賴"觀察-反應(yīng)"模式,如同條件反射般執(zhí)行動(dòng)作,而LingBot-VA通過自回歸視頻預(yù)測(cè)技術(shù),在執(zhí)行動(dòng)作前會(huì)先在腦海中推演未來數(shù)秒的畫面,這種"想象力決策"機(jī)制為機(jī)器人控制開辟了全新路徑。

該模型的核心創(chuàng)新在于解耦了傳統(tǒng)VLA(視覺-語言-動(dòng)作)架構(gòu)中的表征纏繞問題。研究團(tuán)隊(duì)采用"先想象世界,再反推動(dòng)作"的兩步策略:首先通過視頻世界模型預(yù)測(cè)未來視覺狀態(tài),再利用逆向動(dòng)力學(xué)模型推導(dǎo)所需動(dòng)作。這種設(shè)計(jì)使機(jī)器人能夠完成三類高難度任務(wù):在長(zhǎng)時(shí)序任務(wù)中(如準(zhǔn)備早餐),機(jī)器人可精準(zhǔn)記憶操作步驟;高精度任務(wù)中(如擦拭試管),動(dòng)作精度達(dá)到毫米級(jí);面對(duì)可變形物體(如折疊衣物),能通過視頻推演預(yù)判物體形變。真機(jī)測(cè)試顯示,機(jī)器人完成擰螺絲任務(wù)時(shí),動(dòng)作流暢度與人類操作幾乎無異。

技術(shù)實(shí)現(xiàn)層面,團(tuán)隊(duì)在三個(gè)維度取得突破。架構(gòu)設(shè)計(jì)上,視頻Token與動(dòng)作Token構(gòu)成自回歸交錯(cuò)序列,配合因果注意力機(jī)制確保模型只能使用歷史信息。通過KV-cache技術(shù)賦予模型長(zhǎng)期記憶能力,使其能清晰追溯三步前的操作狀態(tài)。在模型分工方面,Mixture-of-Transformers架構(gòu)將視覺推演與動(dòng)作控制分離:視頻流負(fù)責(zé)復(fù)雜視覺分析,動(dòng)作流專注精準(zhǔn)運(yùn)動(dòng)控制,兩者通過共享注意力機(jī)制實(shí)現(xiàn)信息互通。工程優(yōu)化環(huán)節(jié),部分去噪技術(shù)允許模型從含噪中間狀態(tài)提取關(guān)鍵信息,異步推理機(jī)制使動(dòng)作計(jì)算與執(zhí)行并行進(jìn)行,F(xiàn)DM接地技術(shù)則通過真實(shí)數(shù)據(jù)持續(xù)校正模型想象,防止出現(xiàn)脫離現(xiàn)實(shí)的幻覺。

在RoboTwin 2.0雙臂協(xié)作基準(zhǔn)測(cè)試中,LingBot-VA展現(xiàn)出顯著優(yōu)勢(shì):簡(jiǎn)單場(chǎng)景成功率達(dá)92.93%,復(fù)雜場(chǎng)景成功率91.55%,分別超出第二名4.2%和4.6%。隨著任務(wù)難度增加,其領(lǐng)先幅度擴(kuò)大至9%以上。在LIBERO基準(zhǔn)測(cè)試中,該模型更以98.5%的平均成功率刷新紀(jì)錄。實(shí)驗(yàn)數(shù)據(jù)顯示,LingBot-VA具有三大核心能力:長(zhǎng)期記憶能力使其在計(jì)數(shù)任務(wù)中精準(zhǔn)記錄操作次數(shù);少樣本適應(yīng)能力僅需50條演示數(shù)據(jù)即可掌握新任務(wù);泛化能力允許模型識(shí)別并操作不同顏色、形狀或擺放位置的同類物體。

此次開源是螞蟻靈波四天技術(shù)發(fā)布計(jì)劃的收官之作。此前三天,團(tuán)隊(duì)已陸續(xù)開源LingBot-Depth(增強(qiáng)視覺感知)、LingBot-VLA(打通語言視覺動(dòng)作接口)、LingBot-World(構(gòu)建可預(yù)測(cè)世界模型)三個(gè)項(xiàng)目。四者構(gòu)成完整技術(shù)鏈條:從清晰感知到理解世界,從構(gòu)建想象到指導(dǎo)行動(dòng),推動(dòng)通用機(jī)器人進(jìn)入視頻推理時(shí)代。這種技術(shù)范式已引發(fā)行業(yè)連鎖反應(yīng),谷歌Project Genie項(xiàng)目、宇樹科技UnifoLM-VLA-0等相繼開源,海外媒體評(píng)價(jià)稱:"螞蟻集團(tuán)通過完整開源工具包,在全球機(jī)器人領(lǐng)域主導(dǎo)權(quán)爭(zhēng)奪中邁出戰(zhàn)略性一步。"

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容