在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

智源“悟界·Emu3”登Nature正刊:自回歸路線或成多模態(tài)世界模型新方向

   發(fā)布時(shí)間:2026-02-02 14:18 作者:蘇婉清

北京智源人工智能研究院推出的多模態(tài)大模型“悟界·Emu3”近日登上國(guó)際頂級(jí)學(xué)術(shù)期刊《自然》(Nature)正刊,成為繼DeepSeek之后第二個(gè)獲此殊榮的中國(guó)大模型團(tuán)隊(duì)研究成果。這一突破標(biāo)志著中國(guó)在多模態(tài)人工智能領(lǐng)域的研究邁入國(guó)際前沿,為構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)提供了全新路徑。

“悟界·Emu3”模型的核心創(chuàng)新在于僅通過(guò)“預(yù)測(cè)下一個(gè)token”的自回歸技術(shù)路線,實(shí)現(xiàn)了文本、圖像和視頻的統(tǒng)一學(xué)習(xí)。這一方法摒棄了傳統(tǒng)多模態(tài)模型中復(fù)雜的組合式架構(gòu),以極簡(jiǎn)的架構(gòu)設(shè)計(jì)同時(shí)支持生成與感知任務(wù)。Nature編輯在點(diǎn)評(píng)中指出,該成果在性能上可媲美專用模型,為原生多模態(tài)助手、世界模型及具身智能等方向的發(fā)展奠定了基礎(chǔ)。

自2024年10月發(fā)布以來(lái),Emu3在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。在文本到圖像生成任務(wù)中,其性能超越SDXL等擴(kuò)散模型,接近DALL-E 3等頂尖水平;視頻生成方面,VBench評(píng)分達(dá)81,超過(guò)Open-Sora 1.2;視覺(jué)語(yǔ)言理解得分62.1,略高于LLaVA-1.6。研究團(tuán)隊(duì)通過(guò)大規(guī)模消融實(shí)驗(yàn)驗(yàn)證了多模態(tài)學(xué)習(xí)的規(guī)模定律,證明模型能力隨數(shù)據(jù)規(guī)模增長(zhǎng)而顯著提升。

該模型的研發(fā)歷程充滿挑戰(zhàn)。2024年初,團(tuán)隊(duì)面臨技術(shù)路徑選擇的關(guān)鍵決策:是沿用主流的擴(kuò)散模型架構(gòu),還是探索自回歸路線的統(tǒng)一可能性。最終,團(tuán)隊(duì)組建了50人的專項(xiàng)攻關(guān)組,以離散token方式重構(gòu)視覺(jué)模態(tài)表示,將圖像、文本和視頻統(tǒng)一到同一表示空間中。這一過(guò)程中,團(tuán)隊(duì)解決了圖像壓縮效率低、訓(xùn)練穩(wěn)定性差等技術(shù)難題,歷經(jīng)近一年時(shí)間完成模型訓(xùn)練。

Emu3的架構(gòu)設(shè)計(jì)體現(xiàn)了“極簡(jiǎn)主義”理念。模型基于Transformer解碼器架構(gòu),擴(kuò)展了嵌入層以容納視覺(jué)標(biāo)記,通過(guò)兩階段優(yōu)化方案實(shí)現(xiàn)高效訓(xùn)練。在推理階段,模型支持無(wú)分類器引導(dǎo)和低延遲生成,可自然擴(kuò)展至機(jī)器人操作、多模態(tài)交錯(cuò)生成等復(fù)雜任務(wù)。研究團(tuán)隊(duì)還開(kāi)源了模型代碼和關(guān)鍵技術(shù),推動(dòng)社區(qū)持續(xù)創(chuàng)新。

2025年10月,團(tuán)隊(duì)進(jìn)一步推出Emu3.5版本,實(shí)現(xiàn)了從“預(yù)測(cè)下一個(gè)token”到“預(yù)測(cè)下一個(gè)狀態(tài)”的能力躍遷。該版本通過(guò)大規(guī)模長(zhǎng)時(shí)序視頻訓(xùn)練,學(xué)習(xí)到時(shí)空與因果關(guān)系,在虛擬世界探索任務(wù)中超越谷歌Nano Banana等模型,首次提出多模態(tài)Scaling新范式。這一進(jìn)展為具身智能等物理AI領(lǐng)域提供了重要技術(shù)支撐。

北京智源研究院自成立以來(lái),始終聚焦大模型原始創(chuàng)新。其發(fā)布的“悟道”系列模型曾創(chuàng)下全球最大語(yǔ)言模型紀(jì)錄,開(kāi)源的200余款模型累計(jì)下載量超7.6億次。此次Emu3登上Nature正刊,不僅驗(yàn)證了中國(guó)AI研究的技術(shù)實(shí)力,也為全球多模態(tài)大模型發(fā)展提供了新思路。隨著開(kāi)源生態(tài)的完善和產(chǎn)業(yè)鏈的協(xié)同發(fā)展,中國(guó)在人工智能基礎(chǔ)研究領(lǐng)域的國(guó)際影響力將持續(xù)擴(kuò)大。

 
 
更多>同類內(nèi)容
全站最新
熱門(mén)內(nèi)容