螞蟻靈波科技近日宣布推出并開源其自主研發(fā)的世界模型LingBot-World,這一框架專為交互式環(huán)境模擬設(shè)計(jì),通過高保真、可控且邏輯一致的模擬能力,為生成式AI與具身智能的融合提供了新的技術(shù)路徑。該模型在視頻生成穩(wěn)定性、動態(tài)交互響應(yīng)及長時序一致性等核心指標(biāo)上達(dá)到行業(yè)領(lǐng)先水平,部分能力已接近谷歌Genie 3的表現(xiàn)。
針對視頻生成領(lǐng)域長期存在的“長時漂移”難題,LingBot-World通過多階段訓(xùn)練架構(gòu)與并行計(jì)算優(yōu)化,實(shí)現(xiàn)了近10分鐘的連續(xù)穩(wěn)定輸出。在極端測試中,即使鏡頭移開60秒后返回,模型仍能保持場景中物體結(jié)構(gòu)與空間關(guān)系的完整性。例如,在高動態(tài)交通場景中,車輛形態(tài)與道路布局在長時間交互后依然保持精準(zhǔn)對應(yīng);城市建筑群在晝夜交替模擬中,門窗結(jié)構(gòu)與外墻紋理均未出現(xiàn)扭曲或消失現(xiàn)象。這種突破為復(fù)雜任務(wù)訓(xùn)練提供了可靠的數(shù)字仿真環(huán)境。
交互性能方面,該模型支持16 FPS的實(shí)時生成吞吐量,端到端響應(yīng)延遲控制在1秒以內(nèi)。用戶可通過鍵盤、鼠標(biāo)或文本指令直接操控虛擬角色與相機(jī)視角,系統(tǒng)能即時反饋天氣變化、風(fēng)格遷移等環(huán)境調(diào)整,同時確保所有操作不破壞場景的幾何一致性。在虛幻引擎合成的純凈數(shù)據(jù)訓(xùn)練下,模型甚至能理解“推開窗戶會引入自然光”這類物理因果關(guān)系,使交互行為更具真實(shí)感。
為解決交互數(shù)據(jù)稀缺問題,研發(fā)團(tuán)隊(duì)采用混合采集策略:一方面從海量網(wǎng)絡(luò)視頻中篩選多樣化場景,另一方面通過游戲引擎與合成管線生成無UI干擾的高質(zhì)量數(shù)據(jù)。這種數(shù)據(jù)構(gòu)建方式使模型具備強(qiáng)大的零樣本泛化能力——僅需輸入單張城市街景照片或游戲截圖,即可自動生成對應(yīng)的可交互視頻流,無需針對特定場景重新訓(xùn)練。在機(jī)器人導(dǎo)航測試中,模型成功模擬了從繁華商業(yè)區(qū)到老舊居民區(qū)的連續(xù)路徑規(guī)劃,展現(xiàn)了跨場景適應(yīng)能力。
在具身智能應(yīng)用層面,LingBot-World通過數(shù)字孿生技術(shù)構(gòu)建了低成本試錯空間。智能體可在虛擬環(huán)境中預(yù)演抓取、搬運(yùn)等物理操作,系統(tǒng)會精準(zhǔn)模擬物體受力變形、碰撞反饋等物理效應(yīng)。更關(guān)鍵的是,模型支持光照條件、物體擺放位置等參數(shù)的動態(tài)調(diào)整,這種場景多樣化生成能力顯著提升了算法在真實(shí)世界中的遷移效率。例如,在倉儲機(jī)器人訓(xùn)練中,通過隨機(jī)改變貨架布局與光照強(qiáng)度,模型幫助算法快速適應(yīng)不同倉庫環(huán)境。
隨著LingBot-World的開源,開發(fā)者可通過Hugging Face、魔搭社區(qū)及GitHub獲取完整代碼庫與技術(shù)文檔。該模型的推出標(biāo)志著螞蟻在具身智能領(lǐng)域完成重要布局,其“基礎(chǔ)模型-通用應(yīng)用-實(shí)體交互”的技術(shù)棧正逐步清晰。通過將物理感知能力注入數(shù)字世界,這項(xiàng)技術(shù)有望推動機(jī)器人學(xué)習(xí)、自動駕駛仿真等產(chǎn)業(yè)進(jìn)入開放場景適應(yīng)的新階段。





















