中文字幕精品有码中文,又爽又黄又无遮挡网站动态图

螞蟻靈波再發(fā)力！LingBot-VA讓機(jī)器人“腦補(bǔ)”未來，通用機(jī)器人迎新突破

發(fā)布時(shí)間：2026-01-31 03:39 來源：快訊作者：任飛揚(yáng)

機(jī)器人領(lǐng)域迎來重大突破——螞蟻靈波團(tuán)隊(duì)近日開源了全球首個(gè)面向通用機(jī)器人控制的因果視頻-動(dòng)作世界模型LingBot-VA，這項(xiàng)技術(shù)讓機(jī)器人首次具備"腦補(bǔ)未來"的能力。傳統(tǒng)機(jī)器人依賴"觀察-反應(yīng)"模式，如同條件反射般執(zhí)行動(dòng)作，而LingBot-VA通過自回歸視頻預(yù)測(cè)技術(shù)，在執(zhí)行動(dòng)作前會(huì)先在腦海中推演未來數(shù)秒的畫面，這種"想象力決策"機(jī)制為機(jī)器人控制開辟了全新路徑。

該模型的核心創(chuàng)新在于解耦了傳統(tǒng)VLA（視覺-語言-動(dòng)作）架構(gòu)中的表征纏繞問題。研究團(tuán)隊(duì)采用"先想象世界，再反推動(dòng)作"的兩步策略：首先通過視頻世界模型預(yù)測(cè)未來視覺狀態(tài)，再利用逆向動(dòng)力學(xué)模型推導(dǎo)所需動(dòng)作。這種設(shè)計(jì)使機(jī)器人能夠完成三類高難度任務(wù)：在長(zhǎng)時(shí)序任務(wù)中（如準(zhǔn)備早餐），機(jī)器人可精準(zhǔn)記憶操作步驟；高精度任務(wù)中（如擦拭試管），動(dòng)作精度達(dá)到毫米級(jí)；面對(duì)可變形物體（如折疊衣物），能通過視頻推演預(yù)判物體形變。真機(jī)測(cè)試顯示，機(jī)器人完成擰螺絲任務(wù)時(shí)，動(dòng)作流暢度與人類操作幾乎無異。

技術(shù)實(shí)現(xiàn)層面，團(tuán)隊(duì)在三個(gè)維度取得突破。架構(gòu)設(shè)計(jì)上，視頻Token與動(dòng)作Token構(gòu)成自回歸交錯(cuò)序列，配合因果注意力機(jī)制確保模型只能使用歷史信息。通過KV-cache技術(shù)賦予模型長(zhǎng)期記憶能力，使其能清晰追溯三步前的操作狀態(tài)。在模型分工方面，Mixture-of-Transformers架構(gòu)將視覺推演與動(dòng)作控制分離：視頻流負(fù)責(zé)復(fù)雜視覺分析，動(dòng)作流專注精準(zhǔn)運(yùn)動(dòng)控制，兩者通過共享注意力機(jī)制實(shí)現(xiàn)信息互通。工程優(yōu)化環(huán)節(jié)，部分去噪技術(shù)允許模型從含噪中間狀態(tài)提取關(guān)鍵信息，異步推理機(jī)制使動(dòng)作計(jì)算與執(zhí)行并行進(jìn)行，F(xiàn)DM接地技術(shù)則通過真實(shí)數(shù)據(jù)持續(xù)校正模型想象，防止出現(xiàn)脫離現(xiàn)實(shí)的幻覺。

在RoboTwin 2.0雙臂協(xié)作基準(zhǔn)測(cè)試中，LingBot-VA展現(xiàn)出顯著優(yōu)勢(shì)：簡(jiǎn)單場(chǎng)景成功率達(dá)92.93%，復(fù)雜場(chǎng)景成功率91.55%，分別超出第二名4.2%和4.6%。隨著任務(wù)難度增加，其領(lǐng)先幅度擴(kuò)大至9%以上。在LIBERO基準(zhǔn)測(cè)試中，該模型更以98.5%的平均成功率刷新紀(jì)錄。實(shí)驗(yàn)數(shù)據(jù)顯示，LingBot-VA具有三大核心能力：長(zhǎng)期記憶能力使其在計(jì)數(shù)任務(wù)中精準(zhǔn)記錄操作次數(shù)；少樣本適應(yīng)能力僅需50條演示數(shù)據(jù)即可掌握新任務(wù)；泛化能力允許模型識(shí)別并操作不同顏色、形狀或擺放位置的同類物體。

此次開源是螞蟻靈波四天技術(shù)發(fā)布計(jì)劃的收官之作。此前三天，團(tuán)隊(duì)已陸續(xù)開源LingBot-Depth（增強(qiáng)視覺感知）、LingBot-VLA（打通語言視覺動(dòng)作接口）、LingBot-World（構(gòu)建可預(yù)測(cè)世界模型）三個(gè)項(xiàng)目。四者構(gòu)成完整技術(shù)鏈條：從清晰感知到理解世界，從構(gòu)建想象到指導(dǎo)行動(dòng)，推動(dòng)通用機(jī)器人進(jìn)入視頻推理時(shí)代。這種技術(shù)范式已引發(fā)行業(yè)連鎖反應(yīng)，谷歌Project Genie項(xiàng)目、宇樹科技UnifoLM-VLA-0等相繼開源，海外媒體評(píng)價(jià)稱："螞蟻集團(tuán)通過完整開源工具包，在全球機(jī)器人領(lǐng)域主導(dǎo)權(quán)爭(zhēng)奪中邁出戰(zhàn)略性一步。"

更多>同類內(nèi)容

螞蟻靈波再發(fā)力！LingBot-VA讓機(jī)器人“腦補(bǔ)”未來，通用機(jī)器人迎新突破

螞蟻靈波再發(fā)力！LingBot-VA讓機(jī)器人“腦補(bǔ)”未來，通用機(jī)器人迎新突破