在2025年科大訊飛全球1024開發(fā)者節(jié)上,一位名為“小飛”的數(shù)字人成為全場焦點。這位具備多模態(tài)超擬人交互能力的數(shù)字人,不僅能聽會看、精準(zhǔn)識別對話者身份,還能根據(jù)歷史對話提供個性化提醒,甚至支持一鍵訂票、外語交流等復(fù)雜功能。更令人驚嘆的是,當(dāng)它化身數(shù)字人林黛玉時,清麗的形象與惟妙惟肖的語氣,讓在場觀眾仿佛穿越時空。
在多人對話場景中,“小飛”展現(xiàn)出強大的環(huán)境適應(yīng)能力。通過融合語音、人臉、姿態(tài)等多維度信息,系統(tǒng)能精準(zhǔn)鎖定說話人位置,即使身處5米外的嘈雜環(huán)境,也能實現(xiàn)0dB遠(yuǎn)場語音識別。其獨創(chuàng)的說話人引導(dǎo)注意力增強方案,可對交互區(qū)域進行細(xì)粒度視覺分析,配合局部檢索增強技術(shù),即便在遠(yuǎn)場條件下也能精準(zhǔn)識別物體細(xì)節(jié)。這種技術(shù)突破,讓數(shù)字人真正具備了“耳聰目明”的感知能力。
認(rèn)知層面的革新同樣顯著。基于對話歷史與語音活動狀態(tài)分析,系統(tǒng)能準(zhǔn)確判斷交互時機與用戶意圖,在多人對話中既不會“搶答”也不會“冷場”。更值得關(guān)注的是其情感解析能力,通過分鐘級情緒識別技術(shù),數(shù)字人能深度共情對話者的真實心緒,在某次演示中,當(dāng)用戶提及工作壓力時,“小飛”不僅調(diào)整了回復(fù)語氣,還主動推薦了附近的減壓場所。
表達(dá)層面的溫度感源于技術(shù)創(chuàng)新。多情感語音合成技術(shù)通過上下文信息建模,能感知對話中的情感變化,并自適應(yīng)調(diào)整合成聲音的情緒語氣。在演示中,當(dāng)用戶連續(xù)詢問天氣與交通狀況時,數(shù)字人的回復(fù)從平和逐漸轉(zhuǎn)為關(guān)切,語音節(jié)奏與停頓也相應(yīng)變化。這種自然流暢的交互體驗,得益于分層式動態(tài)記憶體架構(gòu),該架構(gòu)可實現(xiàn)長短期記憶協(xié)同,使數(shù)字人既能記住用戶偏好,又能進行邏輯推理。
技術(shù)突破的背后,是扎實的產(chǎn)業(yè)積累。科大訊飛自主研發(fā)的星火大模型為數(shù)字人提供了認(rèn)知理解基礎(chǔ),而其在語音、自然語言處理領(lǐng)域的全棧技術(shù)積累,則構(gòu)建了交互系統(tǒng)的基石。此前,訊飛AI虛擬人交互平臺已通過中國信通院最高等級L5認(rèn)證,這為其參與國際標(biāo)準(zhǔn)制定提供了關(guān)鍵依據(jù)。在瑞士日內(nèi)瓦召開的ITU-T SG21全體會議上,由科大訊飛與中國信通院共同編輯的兩項數(shù)字人國際標(biāo)準(zhǔn)順利結(jié)項,標(biāo)志著中國技術(shù)實踐正式成為全球產(chǎn)業(yè)規(guī)范。
技術(shù)價值最終要體現(xiàn)在應(yīng)用場景中。訊飛智作平臺已構(gòu)建超10萬數(shù)字分身與500萬聲音復(fù)刻庫,覆蓋教培、金融、文旅等領(lǐng)域。某銀行客戶通過該平臺生成的數(shù)字員工,不僅能準(zhǔn)確解答業(yè)務(wù)問題,還能根據(jù)客戶情緒調(diào)整溝通策略,使咨詢轉(zhuǎn)化率提升37%。而訊飛AI虛擬人交互平臺則提供軟硬一體化解決方案,其智能交互機已部署在200余個政務(wù)服務(wù)中心,日均服務(wù)量突破10萬人次。
從技術(shù)突破到標(biāo)準(zhǔn)制定,再到場景落地,科大訊飛在數(shù)字人領(lǐng)域構(gòu)建了完整生態(tài)鏈。這種閉環(huán)發(fā)展模式正在產(chǎn)生連鎖反應(yīng):在文旅場景中,數(shù)字導(dǎo)游可同時服務(wù)50名游客;在醫(yī)療領(lǐng)域,虛擬護士能24小時監(jiān)測患者狀態(tài);在教育場景,AI教師可實現(xiàn)個性化教學(xué)。隨著技術(shù)持續(xù)進化,數(shù)字人正在從交互工具進化為真正的智能伙伴。




















