最新日本一道免费一区二区,丝袜视频日本成人午夜视频,久久精品国产在热亚洲完整版

小米發(fā)布并開(kāi)源首款機(jī)器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多項(xiàng)紀(jì)錄

發(fā)布時(shí)間：2026-02-12 19:16 來(lái)源：快訊作者：蘇婉清

小米近日在具身智能領(lǐng)域邁出重要一步，正式推出并開(kāi)源首款機(jī)器人視覺(jué)語(yǔ)言動(dòng)作（VLA）大模型Xiaomi-Robotics-0。該模型以47億參數(shù)規(guī)模實(shí)現(xiàn)視覺(jué)語(yǔ)言理解與實(shí)時(shí)動(dòng)作執(zhí)行的深度融合，在消費(fèi)級(jí)顯卡上即可完成毫秒級(jí)推理，成功突破傳統(tǒng)VLA模型因延遲導(dǎo)致的物理世界交互瓶頸，多項(xiàng)性能指標(biāo)刷新行業(yè)紀(jì)錄。

針對(duì)現(xiàn)有VLA模型普遍存在的"大腦發(fā)達(dá)但肢體遲緩"問(wèn)題，研發(fā)團(tuán)隊(duì)創(chuàng)新采用MoT混合架構(gòu)構(gòu)建雙核心體系。其中多模態(tài)視覺(jué)語(yǔ)言大模型（VLM）作為認(rèn)知中樞，可解析人類(lèi)模糊指令并精準(zhǔn)識(shí)別三維空間關(guān)系；多層擴(kuò)散Transformer（DiT）構(gòu)成的運(yùn)動(dòng)控制模塊則通過(guò)"動(dòng)作塊"生成技術(shù)，將復(fù)雜動(dòng)作拆解為高頻執(zhí)行單元，配合流匹配算法實(shí)現(xiàn)肢體運(yùn)動(dòng)的毫米級(jí)精度控制。這種"認(rèn)知-執(zhí)行"分離設(shè)計(jì)使機(jī)器人既能理解"把水杯遞給穿紅衣服的人"這類(lèi)抽象指令，又能流暢完成抓取、遞送等連續(xù)動(dòng)作。

在訓(xùn)練體系構(gòu)建上，小米開(kāi)創(chuàng)性設(shè)計(jì)兩階段強(qiáng)化方案?？缒B(tài)預(yù)訓(xùn)練階段通過(guò)Action Proposal機(jī)制建立視覺(jué)特征與動(dòng)作空間的映射關(guān)系，在凍結(jié)VLM參數(shù)的同時(shí)專(zhuān)項(xiàng)優(yōu)化DiT模塊，確保模型同時(shí)具備物體識(shí)別、邏輯推理等基礎(chǔ)能力與操作技能。后訓(xùn)練階段引入異步推理框架破解真機(jī)部署難題，Clean Action Prefix技術(shù)保障動(dòng)作序列的連貫性，Λ-shape注意力掩碼則使模型更聚焦實(shí)時(shí)視覺(jué)反饋，環(huán)境適應(yīng)速度提升3倍以上。

目前該項(xiàng)目已實(shí)現(xiàn)全面開(kāi)源，技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重均對(duì)外開(kāi)放。小米機(jī)器人實(shí)驗(yàn)室同步啟動(dòng)全球人才招募計(jì)劃，重點(diǎn)引進(jìn)多模態(tài)學(xué)習(xí)、運(yùn)動(dòng)控制、人機(jī)交互等領(lǐng)域的頂尖專(zhuān)家，持續(xù)探索物理世界與數(shù)字智能的融合邊界。此次開(kāi)源不僅為學(xué)術(shù)界提供先進(jìn)研究基線，更為工業(yè)界落地具身智能應(yīng)用掃清關(guān)鍵技術(shù)障礙。

更多>同類(lèi)內(nèi)容