在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

小米發(fā)布并開(kāi)源首款機(jī)器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多項(xiàng)紀(jì)錄

   發(fā)布時(shí)間:2026-02-12 19:16 作者:蘇婉清

小米近日在具身智能領(lǐng)域邁出重要一步,正式推出并開(kāi)源首款機(jī)器人視覺(jué)語(yǔ)言動(dòng)作(VLA)大模型Xiaomi-Robotics-0。該模型以47億參數(shù)規(guī)模實(shí)現(xiàn)視覺(jué)語(yǔ)言理解與實(shí)時(shí)動(dòng)作執(zhí)行的深度融合,在消費(fèi)級(jí)顯卡上即可完成毫秒級(jí)推理,成功突破傳統(tǒng)VLA模型因延遲導(dǎo)致的物理世界交互瓶頸,多項(xiàng)性能指標(biāo)刷新行業(yè)紀(jì)錄。

針對(duì)現(xiàn)有VLA模型普遍存在的"大腦發(fā)達(dá)但肢體遲緩"問(wèn)題,研發(fā)團(tuán)隊(duì)創(chuàng)新采用MoT混合架構(gòu)構(gòu)建雙核心體系。其中多模態(tài)視覺(jué)語(yǔ)言大模型(VLM)作為認(rèn)知中樞,可解析人類(lèi)模糊指令并精準(zhǔn)識(shí)別三維空間關(guān)系;多層擴(kuò)散Transformer(DiT)構(gòu)成的運(yùn)動(dòng)控制模塊則通過(guò)"動(dòng)作塊"生成技術(shù),將復(fù)雜動(dòng)作拆解為高頻執(zhí)行單元,配合流匹配算法實(shí)現(xiàn)肢體運(yùn)動(dòng)的毫米級(jí)精度控制。這種"認(rèn)知-執(zhí)行"分離設(shè)計(jì)使機(jī)器人既能理解"把水杯遞給穿紅衣服的人"這類(lèi)抽象指令,又能流暢完成抓取、遞送等連續(xù)動(dòng)作。

在訓(xùn)練體系構(gòu)建上,小米開(kāi)創(chuàng)性設(shè)計(jì)兩階段強(qiáng)化方案??缒B(tài)預(yù)訓(xùn)練階段通過(guò)Action Proposal機(jī)制建立視覺(jué)特征與動(dòng)作空間的映射關(guān)系,在凍結(jié)VLM參數(shù)的同時(shí)專(zhuān)項(xiàng)優(yōu)化DiT模塊,確保模型同時(shí)具備物體識(shí)別、邏輯推理等基礎(chǔ)能力與操作技能。后訓(xùn)練階段引入異步推理框架破解真機(jī)部署難題,Clean Action Prefix技術(shù)保障動(dòng)作序列的連貫性,Λ-shape注意力掩碼則使模型更聚焦實(shí)時(shí)視覺(jué)反饋,環(huán)境適應(yīng)速度提升3倍以上。

目前該項(xiàng)目已實(shí)現(xiàn)全面開(kāi)源,技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重均對(duì)外開(kāi)放。小米機(jī)器人實(shí)驗(yàn)室同步啟動(dòng)全球人才招募計(jì)劃,重點(diǎn)引進(jìn)多模態(tài)學(xué)習(xí)、運(yùn)動(dòng)控制、人機(jī)交互等領(lǐng)域的頂尖專(zhuān)家,持續(xù)探索物理世界與數(shù)字智能的融合邊界。此次開(kāi)源不僅為學(xué)術(shù)界提供先進(jìn)研究基線,更為工業(yè)界落地具身智能應(yīng)用掃清關(guān)鍵技術(shù)障礙。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容