在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

小米MiMo-V2-TTS語音合成大模型登場:多風格演繹還能方言唱歌

   發(fā)布時間:2026-03-19 15:44 作者:顧雨柔

小米公司今日宣布推出全新自研語音合成大模型Xiaomi MiMo-V2-TTS,這款集語音生成、情感表達與音樂演繹能力于一體的技術成果,標志著小米在智能語音領域實現(xiàn)重大突破。該模型突破傳統(tǒng)語音合成的單一功能限制,不僅能夠完成自然流暢的對話輸出,更具備專業(yè)級的歌唱表現(xiàn)力,可精準還原音高變化與節(jié)奏韻律。

技術架構層面,研發(fā)團隊創(chuàng)新性地采用自研Audio Tokenizer與多碼本聯(lián)合建模方案,通過超億小時的語音數(shù)據預訓練構建起龐大的聲學知識庫。配合多維度強化學習機制,模型在保持輸出穩(wěn)定性的同時,實現(xiàn)了對語音風格、情感強度的精細化控制。實驗數(shù)據顯示,該系統(tǒng)可精準捕捉文本中的標點符號、語氣詞等隱含表達意圖,自動轉化為符合人類交流習慣的語音特征。

在情感表達維度,MiMo-V2-TTS展現(xiàn)出驚人的控制力。系統(tǒng)支持從整體語氣定調到局部情感波動的多層級調節(jié),能夠在單句輸出中完成從平靜陳述到激動質問的自然過渡。針對歌唱場景開發(fā)的專用模塊,通過解析樂譜中的音符時值與強弱記號,可生成媲美專業(yè)歌手的演唱效果,在清唱測試中獲得92.3%的音準準確率。

方言支持能力成為該模型的另一大亮點。通過構建覆蓋東北官話、西南官話、中原官話、粵語及閩南語等五大方言區(qū)的語音數(shù)據庫,系統(tǒng)實現(xiàn)了對23種地方語音特征的精準建模。在角色扮演測試中,模型可根據文本內容自動切換方言語調,配合情感控制模塊生成極具地域特色的語音輸出。

據技術白皮書披露,該模型已實現(xiàn)與小米多模態(tài)理解系統(tǒng)MiMo-V2-Omni的初步融合。這種跨模態(tài)協(xié)同架構使AI代理在視覺感知的基礎上,能夠通過富有表現(xiàn)力的語音輸出實現(xiàn)更自然的人機交互。研發(fā)團隊透露,后續(xù)版本將擴展至日韓法德等15種外語,并優(yōu)化多語言混合場景下的語音生成質量。

這項技術成果已應用于小米智能音箱、車載系統(tǒng)及機器人產品線,用戶可通過OTA升級體驗最新功能。在內部測試中,搭載該模型的設備在對話自然度評分中達到4.7分(滿分5分),較前代產品提升38%,特別是在情感表達豐富度和方言識別準確率等關鍵指標上表現(xiàn)突出。

 
 
更多>同類內容
全站最新
熱門內容