資訊在沃

螞蟻開(kāi)源Ming-Flash-Omni 2.0:全模態(tài)大模型性能領(lǐng)先,開(kāi)啟多模態(tài)應(yīng)用新篇

   發(fā)布時(shí)間:2026-02-12 02:56 作者:顧雨柔

螞蟻集團(tuán)近日宣布開(kāi)源全模態(tài)大模型Ming-Flash-Omni 2.0,該模型在視覺(jué)語(yǔ)言理解、語(yǔ)音可控生成及圖像編輯等核心領(lǐng)域展現(xiàn)出卓越性能,部分指標(biāo)甚至超越國(guó)際頂尖模型Gemini 2.5 Pro,成為開(kāi)源領(lǐng)域全模態(tài)技術(shù)的新標(biāo)桿。這一成果標(biāo)志著螞蟻集團(tuán)在多模態(tài)人工智能領(lǐng)域的技術(shù)積累進(jìn)入全新階段。

作為業(yè)界首個(gè)實(shí)現(xiàn)全場(chǎng)景音頻統(tǒng)一生成的模型,Ming-Flash-Omni 2.0突破性地將語(yǔ)音、環(huán)境音效與音樂(lè)融合于單一音軌。用戶(hù)通過(guò)自然語(yǔ)言指令即可精準(zhǔn)調(diào)控音色、語(yǔ)速、語(yǔ)調(diào)乃至方言特征,模型更支持零樣本音色克隆技術(shù)。在效率方面,該模型以3.1Hz的推理幀率實(shí)現(xiàn)分鐘級(jí)長(zhǎng)音頻的實(shí)時(shí)高保真生成,在成本控制與處理速度上達(dá)到行業(yè)領(lǐng)先水平。實(shí)測(cè)數(shù)據(jù)顯示,其在復(fù)雜音頻場(chǎng)景下的生成質(zhì)量已接近專(zhuān)業(yè)音頻工作站標(biāo)準(zhǔn)。

技術(shù)架構(gòu)層面,模型基于Ling-2.0架構(gòu)(MoE,100B-A6B)構(gòu)建,通過(guò)系統(tǒng)性訓(xùn)練優(yōu)化實(shí)現(xiàn)三大核心突破:視覺(jué)模塊采用億級(jí)細(xì)粒度數(shù)據(jù)訓(xùn)練,顯著提升對(duì)近緣物種、文物細(xì)節(jié)等復(fù)雜對(duì)象的識(shí)別精度;音頻模塊突破傳統(tǒng)分離式生成模式,實(shí)現(xiàn)多要素協(xié)同創(chuàng)作;圖像編輯模塊強(qiáng)化動(dòng)態(tài)場(chǎng)景處理能力,支持光影調(diào)整、場(chǎng)景替換等高級(jí)功能的同時(shí)保持畫(huà)面連貫性。這些特性使其在醫(yī)療影像分析、文化遺產(chǎn)數(shù)字化等場(chǎng)景具有廣泛應(yīng)用潛力。

螞蟻集團(tuán)百靈模型負(fù)責(zé)人周俊指出,全模態(tài)技術(shù)的核心價(jià)值在于通過(guò)統(tǒng)一架構(gòu)實(shí)現(xiàn)多維度能力的深度融合。此次開(kāi)源將模型權(quán)重與推理代碼同步釋放至Hugging Face等平臺(tái),開(kāi)發(fā)者可基于單一框架調(diào)用視覺(jué)、語(yǔ)音、生成等全棧能力,較傳統(tǒng)多模型串聯(lián)方案降低60%以上的開(kāi)發(fā)成本。配套上線(xiàn)的Ling Studio平臺(tái)更提供可視化操作界面,用戶(hù)無(wú)需深厚技術(shù)背景即可完成復(fù)雜多模態(tài)任務(wù)。

該模型的演進(jìn)路徑體現(xiàn)了螞蟻集團(tuán)的技術(shù)戰(zhàn)略布局:早期版本聚焦多模態(tài)基礎(chǔ)能力建設(shè),中期版本驗(yàn)證規(guī)模效應(yīng),2.0版本則通過(guò)10萬(wàn)小時(shí)級(jí)音頻數(shù)據(jù)與千萬(wàn)級(jí)圖像數(shù)據(jù)的訓(xùn)練優(yōu)化,在保持通用性的同時(shí)實(shí)現(xiàn)專(zhuān)項(xiàng)能力突破。特別是在語(yǔ)音克隆領(lǐng)域,其僅需3秒音頻樣本即可生成高度擬真的語(yǔ)音,在隱私保護(hù)前提下為無(wú)障礙溝通、個(gè)性化內(nèi)容創(chuàng)作等場(chǎng)景提供技術(shù)支撐。

目前,開(kāi)發(fā)者可通過(guò)螞蟻百靈官方平臺(tái)直接調(diào)用模型API,或下載開(kāi)源代碼進(jìn)行本地化部署。這種開(kāi)放策略不僅加速了技術(shù)創(chuàng)新迭代,更為金融、醫(yī)療、教育等垂直領(lǐng)域的應(yīng)用開(kāi)發(fā)提供了標(biāo)準(zhǔn)化解決方案。隨著工具鏈與評(píng)測(cè)體系的持續(xù)完善,全模態(tài)技術(shù)有望在智能客服、內(nèi)容生產(chǎn)、輔助診斷等領(lǐng)域?qū)崿F(xiàn)規(guī)模化落地。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容