在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

雷軍宣布小米多項(xiàng)AI成果入選ICASSP 2026 涵蓋音頻視頻多領(lǐng)域創(chuàng)新突破

   發(fā)布時(shí)間:2026-01-22 20:02 作者:沈如風(fēng)

近日,小米在人工智能領(lǐng)域取得重大突破,其多項(xiàng)AI創(chuàng)新成果成功入選國(guó)際頂級(jí)學(xué)術(shù)會(huì)議ICASSP 2026。ICASSP作為全球音頻領(lǐng)域最具權(quán)威性與影響力的學(xué)術(shù)會(huì)議之一,自1976年在美國(guó)費(fèi)城首次舉辦以來(lái),已有近50年歷史。此次會(huì)議將于今年5月在西班牙巴塞羅那舉行,小米的入選成果涵蓋了音頻理解、音樂(lè)生成評(píng)估、通用音頻-文本預(yù)訓(xùn)練、視頻到音頻合成等多個(gè)AI領(lǐng)域。

在音頻理解領(lǐng)域,小米推出了ACAVCaps數(shù)據(jù)集,旨在突破現(xiàn)有數(shù)據(jù)集在規(guī)模與描述粒度上難以兼得的瓶頸。當(dāng)前主流數(shù)據(jù)集普遍存在“規(guī)模大但描述簡(jiǎn)略”或“描述詳盡但規(guī)模受限”的問(wèn)題。ACAVCaps通過(guò)創(chuàng)新的自動(dòng)化管線,從多維度、多視角對(duì)音頻內(nèi)容進(jìn)行精細(xì)化刻畫。該數(shù)據(jù)集構(gòu)建了一套多級(jí)自動(dòng)化標(biāo)注框架,利用多個(gè)專家模型并行提取原始音頻中的聲音事件、音樂(lè)特征、說(shuō)話人屬性及語(yǔ)音內(nèi)容等關(guān)鍵元數(shù)據(jù),并引入大語(yǔ)言模型(LLM)和思維鏈推理策略,將碎片化的結(jié)構(gòu)化信息進(jìn)行邏輯整合。ACAVCaps包含約470萬(wàn)條音頻-文本對(duì),推動(dòng)了音頻AI從簡(jiǎn)單的“特征識(shí)別”向深度的“語(yǔ)義理解”發(fā)展,該數(shù)據(jù)集近期將全面開源。

在聯(lián)邦學(xué)習(xí)領(lǐng)域,小米提出了FedDCG方法,以解決視覺(jué)語(yǔ)言模型在高效微調(diào)中面臨的域泛化和類別泛化問(wèn)題。傳統(tǒng)方法通常單獨(dú)處理未見(jiàn)的類別或未見(jiàn)的域,導(dǎo)致在測(cè)試數(shù)據(jù)同時(shí)包含未見(jiàn)類別和未見(jiàn)域的復(fù)雜場(chǎng)景下性能受限。FedDCG通過(guò)域分組策略和類特定協(xié)作訓(xùn)練機(jī)制,首次在聯(lián)邦學(xué)習(xí)設(shè)置下聯(lián)合解決類別和域泛化問(wèn)題。該方法在Office-Home和MiniDomainNet等數(shù)據(jù)集上的實(shí)驗(yàn)表明,在ImageNet-R和ImageNet-A等零樣本評(píng)估基準(zhǔn)上均優(yōu)于當(dāng)前最先進(jìn)的基線方法,證明了其在數(shù)據(jù)稀缺場(chǎng)景下的有效性,適用于移動(dòng)端智能處理等資源受限場(chǎng)景。

在音樂(lè)生成評(píng)估領(lǐng)域,小米提出了FUSEMOS雙編碼器架構(gòu),以提升文本到音樂(lè)(TTM)生成系統(tǒng)的感知評(píng)估能力?,F(xiàn)有自動(dòng)音樂(lè)感知評(píng)估方法主要依賴單一音頻編碼器提取音頻特征,難以捕捉音樂(lè)中復(fù)雜結(jié)構(gòu)與細(xì)粒度特征。FUSEMOS融合了CLAP與MERT兩大預(yù)訓(xùn)練模型,通過(guò)晚期融合策略和排名感知復(fù)合損失函數(shù),實(shí)現(xiàn)了更精準(zhǔn)、更貼近人類聽(tīng)覺(jué)感知的評(píng)估。在Musiceval基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,F(xiàn)USEMOS在均方誤差和排序相關(guān)性等關(guān)鍵指標(biāo)上均顯著優(yōu)于現(xiàn)有方法。

在通用音頻-文本預(yù)訓(xùn)練領(lǐng)域,小米開發(fā)的GLAP模型實(shí)現(xiàn)了跨音頻領(lǐng)域(語(yǔ)音/音樂(lè)/環(huán)境音)與跨語(yǔ)言的音頻-文本對(duì)齊,支持RAG形式的音頻搜索。GLAP首次通過(guò)單一框架同時(shí)優(yōu)化語(yǔ)音、音樂(lè)及聲音事件的檢索與分類性能,解決了傳統(tǒng)CLAP模型領(lǐng)域割裂的問(wèn)題。該模型在LibriSpeech和AISHELL-2語(yǔ)音檢索上達(dá)到約94%與99%的recall@1,同時(shí)在AudioCaps等聲音檢索基準(zhǔn)保持SOTA競(jìng)爭(zhēng)力。GLAP具備多語(yǔ)言泛化能力,無(wú)需目標(biāo)語(yǔ)種微調(diào),即可在50種語(yǔ)言的關(guān)鍵詞識(shí)別中展現(xiàn)Zero-shot能力,可直接賦能小米“人車家全生態(tài)”中的跨模態(tài)理解場(chǎng)景。

在視頻到音頻合成領(lǐng)域,小米提出的MeanFlow模型實(shí)現(xiàn)了視頻同步音效生成場(chǎng)景中推理效率與生成質(zhì)量的雙重突破。MeanFlow首次在V2A任務(wù)中通過(guò)平均速度場(chǎng)建模替代傳統(tǒng)流匹配模型的瞬時(shí)速度建模,解決了多步迭代采樣導(dǎo)致的推理速度瓶頸,實(shí)現(xiàn)推理階段的一步生成。針對(duì)無(wú)分類器引導(dǎo)應(yīng)用時(shí)易出現(xiàn)的一步生成失真問(wèn)題,創(chuàng)新引入標(biāo)量重縮放機(jī)制,有效緩解失真現(xiàn)象。實(shí)驗(yàn)驗(yàn)證表明,該模型在實(shí)現(xiàn)推理速度大幅提升的同時(shí),可穩(wěn)定保持優(yōu)質(zhì)的音效輸出,確保音視頻語(yǔ)義對(duì)齊與時(shí)間同步性,綜合性能處于領(lǐng)域領(lǐng)先水平。

在多模態(tài)檢索領(lǐng)域,小米提出了一種統(tǒng)一的多任務(wù)學(xué)習(xí)框架,將“找圖、找文、意圖理解”這三個(gè)任務(wù)整合到兩個(gè)模型中。傳統(tǒng)檢索中,這三個(gè)任務(wù)通常是獨(dú)立訓(xùn)練的模型,導(dǎo)致同一查詢被重復(fù)編碼檢索,且語(yǔ)義空間未對(duì)齊。該框架通過(guò)文本編碼器同時(shí)對(duì)齊圖像和文本的語(yǔ)義空間,并通過(guò)跨注意力機(jī)制與NLU模型進(jìn)行語(yǔ)義交互,實(shí)現(xiàn)意圖感知和語(yǔ)義增強(qiáng)。該框架在找圖與找文任務(wù)上均達(dá)到或超過(guò)現(xiàn)有最優(yōu)方法,在多語(yǔ)言測(cè)試中也表現(xiàn)出色,為小米手機(jī)場(chǎng)景下的多模態(tài)檢索提供了輕量化、高性能的解決方案。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容