阿里Qwen3-Omni-Flash-2025-12-01發(fā)布：多模態(tài)交互升級，語音自然度逼近真人-游戲-沃資訊

阿里Qwen3-Omni-Flash-2025-12-01發(fā)布：多模態(tài)交互升級，語音自然度逼近真人

發(fā)布時間：2025-12-11 10:38 來源：快訊作者：柳晴雪

阿里Qwen團隊近日宣布，正式推出新一代原生全模態(tài)大模型Qwen3-Omni-Flash-2025-12-01。這款基于Qwen3-Omni升級的模型，實現(xiàn)了文本、圖像、音視頻等多種模態(tài)的無縫輸入與實時流式輸出，標志著多模態(tài)交互技術(shù)邁入全新階段。

在交互體驗層面，新模型重點優(yōu)化了多模態(tài)融合能力。通過實時流式響應技術(shù)，用戶輸入的文本、圖像、音視頻信息可同步轉(zhuǎn)化為高質(zhì)量文本與自然語音輸出。針對語音交互場景，模型突破了傳統(tǒng)語音生成機械呆板的局限，能夠根據(jù)文本內(nèi)容自適應調(diào)整語速、停頓與韻律，語音自然度與擬人化程度接近真人水平，顯著提升了對話流暢性。

系統(tǒng)提示控制能力的升級成為本次更新的核心亮點。研發(fā)團隊全面開放了System Prompt自定義權(quán)限，用戶可通過精細化參數(shù)設(shè)置調(diào)控模型行為模式。無論是設(shè)定特定人設(shè)風格如“甜妹”“御姐”，還是調(diào)整口語化表達偏好與回復長度，模型均能精準響應。這一功能為個性化交互場景提供了技術(shù)支撐，例如虛擬主播、智能客服等領(lǐng)域可實現(xiàn)更靈活的角色扮演。

跨語言支持方面，模型展現(xiàn)出強大的全球化服務能力。支持119種文本語言交互、19種語音識別語言及10種語音合成語言，確保在多語言場景下保持響應準確性與一致性。這一特性為跨國企業(yè)、國際教育等場景提供了高效解決方案，有效降低了語言障礙帶來的溝通成本。

客觀性能指標顯示，新模型在多項基準測試中取得突破性進展。邏輯推理任務（ZebraLogic）得分提升5.6，代碼生成（LiveCodeBench-v6）提升9.3，多學科視覺問答（MMMU）提升4.7。這些數(shù)據(jù)表明，模型不僅在圖像視頻內(nèi)容理解上更加精準，在復雜指令遵循與深度邏輯分析方面也達到行業(yè)領(lǐng)先水平。

針對口語化場景的“降智”痛點，新模型通過增強音視頻指令理解能力，顯著提升了多輪對話的穩(wěn)定性與連貫性。在復雜語境下，模型能夠準確捕捉用戶意圖，避免語義歧義，為智能助手、教育輔導等場景提供了更可靠的交互基礎(chǔ)。此次升級標志著多模態(tài)大模型從技術(shù)探索向?qū)嵱没涞剡~出關(guān)鍵一步。

更多>同類內(nèi)容