在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

螞蟻集團(tuán)開源全模態(tài)大模型Ming-Flash-Omni 2.0,多領(lǐng)域能力領(lǐng)先且支持在線體驗

   發(fā)布時間:2026-02-12 02:52 作者:馮璃月

螞蟻集團(tuán)近日宣布開源其最新研發(fā)的全模態(tài)大模型——Ming-Flash-Omni 2.0,這一成果標(biāo)志著全場景音頻統(tǒng)一生成技術(shù)邁入新階段。該模型在視覺語言理解、語音可控生成、圖像編輯等多個領(lǐng)域展現(xiàn)出卓越性能,多項公開基準(zhǔn)測試結(jié)果顯示其關(guān)鍵能力已達(dá)到行業(yè)領(lǐng)先水平。

作為業(yè)界首個實現(xiàn)全場景音頻統(tǒng)一生成的模型,Ming-Flash-Omni 2.0突破性地在單條音軌中同步生成語音、環(huán)境音效與音樂元素。用戶通過自然語言指令即可精準(zhǔn)調(diào)控音色、語速、語調(diào)、音量及情緒參數(shù),甚至支持方言定制。該模型在推理效率上實現(xiàn)重大突破,3.1Hz的極低幀率配合分鐘級長音頻的實時高保真生成能力,在成本控制與處理速度方面均處于行業(yè)前沿。

技術(shù)團(tuán)隊通過系統(tǒng)性訓(xùn)練優(yōu)化,將模型能力推向新高度?;贚ing-2.0架構(gòu)(MoE,100B-A6B)構(gòu)建的模型,在視覺識別領(lǐng)域融合億級細(xì)粒度數(shù)據(jù)與難例訓(xùn)練策略,顯著提升對近緣物種、工藝細(xì)節(jié)等復(fù)雜對象的識別精度;音頻生成模塊支持零樣本音色克隆技術(shù),實現(xiàn)語音、音效、音樂的同軌無縫合成;圖像編輯功能則強(qiáng)化了復(fù)雜場景的穩(wěn)定性,新增光影調(diào)整、場景替換等實用功能,即使在動態(tài)畫面中仍能保持細(xì)節(jié)真實度。

全模態(tài)技術(shù)的核心挑戰(zhàn)在于平衡通用性與專業(yè)性。螞蟻集團(tuán)通過持續(xù)迭代Ming-Omni系列模型,逐步構(gòu)建起統(tǒng)一的多模態(tài)能力底座。早期版本聚焦基礎(chǔ)能力整合,中期版本驗證規(guī)模效應(yīng),最新2.0版本則通過大規(guī)模數(shù)據(jù)訓(xùn)練與架構(gòu)優(yōu)化,在保持開源模型開放性的同時,部分領(lǐng)域性能已超越專用模型。

此次開源將模型權(quán)重與推理代碼同步發(fā)布至Hugging Face等社區(qū),開發(fā)者可通過螞蟻百靈官方平臺Ling Studio在線體驗。百靈模型負(fù)責(zé)人周俊指出,統(tǒng)一架構(gòu)設(shè)計使視覺、語音、生成能力可高效復(fù)用,大幅降低多模型串聯(lián)的開發(fā)成本。技術(shù)團(tuán)隊正持續(xù)優(yōu)化視頻時序理解、長音頻實時生成等關(guān)鍵模塊,并完善配套工具鏈與評測體系。

該模型的開放策略引發(fā)行業(yè)廣泛關(guān)注。通過提供可復(fù)用的技術(shù)底座,螞蟻集團(tuán)為端到端多模態(tài)應(yīng)用開發(fā)開辟了新路徑。目前已有開發(fā)者基于該框架構(gòu)建智能教育、內(nèi)容創(chuàng)作等領(lǐng)域的創(chuàng)新應(yīng)用,驗證了其在降低技術(shù)門檻、提升開發(fā)效率方面的顯著價值。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容