螞蟻靈波科技開源世界模型LingBot-World，長時生成穩(wěn)定交互能力直逼谷歌Genie3-財(cái)經(jīng)-沃資訊

螞蟻靈波科技開源世界模型LingBot-World，長時生成穩(wěn)定交互能力直逼谷歌Genie3

發(fā)布時間：2026-01-30 03:05 來源：快訊作者：趙磊

螞蟻靈波科技近日宣布推出并開源其自主研發(fā)的世界模型LingBot-World，這一框架專為交互式環(huán)境模擬設(shè)計(jì)，通過高保真、可控且邏輯一致的模擬能力，為生成式AI與具身智能的融合提供了新的技術(shù)路徑。該模型在視頻生成穩(wěn)定性、動態(tài)交互響應(yīng)及長時序一致性等核心指標(biāo)上達(dá)到行業(yè)領(lǐng)先水平，部分能力已接近谷歌Genie 3的表現(xiàn)。

針對視頻生成領(lǐng)域長期存在的“長時漂移”難題，LingBot-World通過多階段訓(xùn)練架構(gòu)與并行計(jì)算優(yōu)化，實(shí)現(xiàn)了近10分鐘的連續(xù)穩(wěn)定輸出。在極端測試中，即使鏡頭移開60秒后返回，模型仍能保持場景中物體結(jié)構(gòu)與空間關(guān)系的完整性。例如，在高動態(tài)交通場景中，車輛形態(tài)與道路布局在長時間交互后依然保持精準(zhǔn)對應(yīng)；城市建筑群在晝夜交替模擬中，門窗結(jié)構(gòu)與外墻紋理均未出現(xiàn)扭曲或消失現(xiàn)象。這種突破為復(fù)雜任務(wù)訓(xùn)練提供了可靠的數(shù)字仿真環(huán)境。

交互性能方面，該模型支持16 FPS的實(shí)時生成吞吐量，端到端響應(yīng)延遲控制在1秒以內(nèi)。用戶可通過鍵盤、鼠標(biāo)或文本指令直接操控虛擬角色與相機(jī)視角，系統(tǒng)能即時反饋天氣變化、風(fēng)格遷移等環(huán)境調(diào)整，同時確保所有操作不破壞場景的幾何一致性。在虛幻引擎合成的純凈數(shù)據(jù)訓(xùn)練下，模型甚至能理解“推開窗戶會引入自然光”這類物理因果關(guān)系，使交互行為更具真實(shí)感。

為解決交互數(shù)據(jù)稀缺問題，研發(fā)團(tuán)隊(duì)采用混合采集策略：一方面從海量網(wǎng)絡(luò)視頻中篩選多樣化場景，另一方面通過游戲引擎與合成管線生成無UI干擾的高質(zhì)量數(shù)據(jù)。這種數(shù)據(jù)構(gòu)建方式使模型具備強(qiáng)大的零樣本泛化能力——僅需輸入單張城市街景照片或游戲截圖，即可自動生成對應(yīng)的可交互視頻流，無需針對特定場景重新訓(xùn)練。在機(jī)器人導(dǎo)航測試中，模型成功模擬了從繁華商業(yè)區(qū)到老舊居民區(qū)的連續(xù)路徑規(guī)劃，展現(xiàn)了跨場景適應(yīng)能力。

在具身智能應(yīng)用層面，LingBot-World通過數(shù)字孿生技術(shù)構(gòu)建了低成本試錯空間。智能體可在虛擬環(huán)境中預(yù)演抓取、搬運(yùn)等物理操作，系統(tǒng)會精準(zhǔn)模擬物體受力變形、碰撞反饋等物理效應(yīng)。更關(guān)鍵的是，模型支持光照條件、物體擺放位置等參數(shù)的動態(tài)調(diào)整，這種場景多樣化生成能力顯著提升了算法在真實(shí)世界中的遷移效率。例如，在倉儲機(jī)器人訓(xùn)練中，通過隨機(jī)改變貨架布局與光照強(qiáng)度，模型幫助算法快速適應(yīng)不同倉庫環(huán)境。

隨著LingBot-World的開源，開發(fā)者可通過Hugging Face、魔搭社區(qū)及GitHub獲取完整代碼庫與技術(shù)文檔。該模型的推出標(biāo)志著螞蟻在具身智能領(lǐng)域完成重要布局，其“基礎(chǔ)模型-通用應(yīng)用-實(shí)體交互”的技術(shù)棧正逐步清晰。通過將物理感知能力注入數(shù)字世界，這項(xiàng)技術(shù)有望推動機(jī)器人學(xué)習(xí)、自動駕駛仿真等產(chǎn)業(yè)進(jìn)入開放場景適應(yīng)的新階段。

更多>同類內(nèi)容