阿里通義實驗室近日宣布,其自主研發的語音識別大模型Fun-ASR1.5已正式面向公眾開放使用。這款模型突破了傳統語音識別工具在多語言場景下的應用局限,通過統一的底層架構設計,實現了對全球30種語言的廣泛支持,同時深度覆蓋漢語七大方言體系及超過20種地方口音的精準識別。
在技術驗證階段,Fun-ASR1.5展現出顯著的性能優勢。實驗室測試數據顯示,針對方言場景的識別任務中,該模型較前代版本字錯誤率(CER)降低56.2%,其中5種方言的識別準確率突破90%閾值,另有15種方言的準確率達到80%以上。特別值得關注的是,模型對古詩詞吟誦等特殊語音場景的轉寫能力達到行業領先水平,能夠準確捕捉韻律特征與文化語境。
該模型的創新性體現在其跨語言處理機制上。研發團隊通過構建多維度語音特征庫,使模型能夠自動適配不同語言的聲學模型與語言模型,無需針對特定語種單獨訓練。這種設計不僅降低了多語言應用的開發成本,更顯著提升了模型在混合語言場景下的識別穩定性。目前,Fun-ASR1.5已支持包括粵語、吳語、閩南語等在內的漢語方言體系,以及英語、法語、阿拉伯語等國際主流語言。




















