在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

智源Emu3登Nature:用“下一詞預(yù)測(cè)”開啟多模態(tài)AI統(tǒng)一新范式

   發(fā)布時(shí)間:2026-02-07 11:27 作者:陸辰風(fēng)

近日,國際頂級(jí)學(xué)術(shù)期刊《Nature》發(fā)表了一項(xiàng)來自中國團(tuán)隊(duì)的重要研究成果——北京智源人工智能研究院推出的多模態(tài)大模型Emu3,為人工智能領(lǐng)域提出了一種全新的技術(shù)路徑。該模型通過“下一詞預(yù)測(cè)”這一簡(jiǎn)潔機(jī)制,試圖統(tǒng)一視覺、聽覺、語言及行動(dòng)等多模態(tài)能力,挑戰(zhàn)了當(dāng)前主流的“??苹蹦P驮O(shè)計(jì)范式,引發(fā)全球科研界廣泛關(guān)注。

傳統(tǒng)多模態(tài)模型通常采用“分而治之”策略:圖像生成、文字理解、視頻處理等任務(wù)由獨(dú)立模型完成,再通過復(fù)雜架構(gòu)拼接。盡管這種方法在特定領(lǐng)域取得顯著成果,但模型間協(xié)同效率低、工程復(fù)雜度高的問題日益凸顯。Emu3則選擇了一條截然不同的道路——將所有模態(tài)數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為離散符號(hào)序列,僅通過預(yù)測(cè)下一個(gè)符號(hào)的任務(wù),實(shí)現(xiàn)跨模態(tài)能力的融合。這一設(shè)計(jì)靈感源于GPT-3等語言模型的成功經(jīng)驗(yàn),但將其擴(kuò)展至視覺和視頻領(lǐng)域面臨巨大挑戰(zhàn):一張高分辨率圖像可能包含數(shù)十萬符號(hào),計(jì)算負(fù)擔(dān)沉重;圖像的空間結(jié)構(gòu)與視頻的時(shí)間連續(xù)性,也遠(yuǎn)非線性文字可比。

研究團(tuán)隊(duì)的核心突破在于開發(fā)了一種高效的“視覺分詞器”。該組件可將512×512圖像壓縮為4096個(gè)符號(hào),壓縮比達(dá)64:1;視頻處理則在時(shí)間維度進(jìn)一步壓縮4倍,僅用四分之一符號(hào)量即可達(dá)到與逐幀編碼相當(dāng)?shù)闹亟ㄙ|(zhì)量。更關(guān)鍵的是,分詞器通過三維卷積核同時(shí)捕捉空間與時(shí)間信息,使模型能夠真正理解視頻的動(dòng)態(tài)本質(zhì),而非簡(jiǎn)單堆砌靜態(tài)畫面。這一技術(shù)為后續(xù)訓(xùn)練奠定了基礎(chǔ)。

Emu3的模型架構(gòu)堪稱極簡(jiǎn)主義的典范:僅使用一個(gè)從零訓(xùn)練的decoder-only Transformer,詞匯表中新增32768個(gè)視覺符號(hào),無需任何預(yù)訓(xùn)練視覺編碼器或復(fù)雜模態(tài)融合機(jī)制。這種設(shè)計(jì)在實(shí)驗(yàn)中展現(xiàn)出驚人效果:在圖像生成任務(wù)中,人類偏好評(píng)分超越擴(kuò)散模型標(biāo)桿Stable Diffusion XL;視覺語言理解基準(zhǔn)測(cè)試平均分與復(fù)雜編碼器架構(gòu)模型持平;視頻生成質(zhì)量更超過專門設(shè)計(jì)的擴(kuò)散模型。更引人注目的是,同一模型在生成與理解任務(wù)上均達(dá)到專業(yè)水平,打破了傳統(tǒng)架構(gòu)中“擅長(zhǎng)理解者不擅長(zhǎng)生成”的局限。

研究團(tuán)隊(duì)對(duì)規(guī)模定律的深入探索為成果提供了理論支撐。實(shí)驗(yàn)表明,多模態(tài)學(xué)習(xí)與純語言模型遵循相似的數(shù)學(xué)規(guī)律:訓(xùn)練數(shù)據(jù)量翻倍時(shí),驗(yàn)證損失以0.55指數(shù)下降,且不同模態(tài)共享同一套擴(kuò)展指數(shù)?;谛∫?guī)模模型數(shù)據(jù),團(tuán)隊(duì)準(zhǔn)確預(yù)測(cè)了70億參數(shù)模型的性能,誤差不足3%。這一發(fā)現(xiàn)意味著,未來多模態(tài)能力提升可能無需針對(duì)每種模態(tài)單獨(dú)設(shè)計(jì)訓(xùn)練策略,僅需擴(kuò)大數(shù)據(jù)規(guī)模與模型參數(shù)即可自然涌現(xiàn),為通用人工智能研發(fā)開辟了新路徑。

在機(jī)器人操控任務(wù)中,Emu3展現(xiàn)出跨模態(tài)理解的深層潛力。在CALVIN基準(zhǔn)測(cè)試中,模型以87%成功率連續(xù)完成五個(gè)復(fù)雜任務(wù),包括視覺感知、語言解析與動(dòng)作規(guī)劃的協(xié)同。更令人印象深刻的是,給定烹飪視頻片段,模型可準(zhǔn)確預(yù)測(cè)后續(xù)動(dòng)作——食材翻炒方式、廚師手部移動(dòng)軌跡乃至蒸汽升騰方向。這種“世界模型”能力被視為通向高級(jí)AI的關(guān)鍵,它使模型能夠理解物理世界因果關(guān)系,而非僅記憶靜態(tài)關(guān)聯(lián)。

與海外同類研究相比,Emu3的技術(shù)路線具有獨(dú)特優(yōu)勢(shì)。meta的Chameleon雖同樣采用統(tǒng)一符號(hào)化與自回歸預(yù)測(cè),但性能與專用模型存在差距;OpenAI的Sora在視頻生成質(zhì)量上領(lǐng)先,卻需額外模型支持內(nèi)容理解;Google的Gemini整合多模態(tài)但依賴預(yù)訓(xùn)練組件,可能引入模態(tài)偏見。Emu3則通過從零訓(xùn)練策略,實(shí)現(xiàn)了更純粹的多模態(tài)表征學(xué)習(xí)。研究團(tuán)隊(duì)承諾開源關(guān)鍵技術(shù)與模型,包括視覺分詞器、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重,為全球科研社區(qū)提供了可復(fù)現(xiàn)、可改進(jìn)的技術(shù)基礎(chǔ)。

從產(chǎn)業(yè)應(yīng)用視角看,Emu3的架構(gòu)特性為商業(yè)化帶來獨(dú)特價(jià)值。其標(biāo)準(zhǔn)Transformer結(jié)構(gòu)可復(fù)用現(xiàn)有推理基礎(chǔ)設(shè)施,支持低延遲、高吞吐服務(wù);單一模型架構(gòu)統(tǒng)一了圖像生成、視覺問答、視頻理解等多種能力,顯著降低運(yùn)維復(fù)雜度與資源消耗。在教育、電商、醫(yī)療影像分析等領(lǐng)域,統(tǒng)一多模態(tài)模型可簡(jiǎn)化工作流程,例如自動(dòng)生成產(chǎn)品演示圖文、實(shí)時(shí)回答視頻內(nèi)容問題等。盡管當(dāng)前模型在推理速度、長(zhǎng)視頻處理等方面仍存局限,但這些被視為工程優(yōu)化問題,而非技術(shù)路線瓶頸。

這項(xiàng)研究不僅為多模態(tài)學(xué)習(xí)提供了新范式,更重新定義了人工智能的能力邊界。當(dāng)預(yù)測(cè)任務(wù)從文字?jǐn)U展至視覺與行動(dòng),當(dāng)統(tǒng)一框架涌現(xiàn)出跨模態(tài)理解與創(chuàng)造能力,人們開始思考:智能的本質(zhì)是否正是對(duì)下一個(gè)符號(hào)的預(yù)測(cè)?這種簡(jiǎn)潔原則能否成為通向通用人工智能的鑰匙?Emu3的突破或許只是開始,但它已為AI的下一個(gè)十年指明了方向。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容