蔡浩宇新加坡再創(chuàng)業(yè)：LPM 1.0讓AI虛擬角色“活”起來-科技-沃資訊

蔡浩宇新加坡再創(chuàng)業(yè)：LPM 1.0讓AI虛擬角色“活”起來

發(fā)布時間：2026-04-15 15:21 來源：快訊作者：吳婷

在AI視頻生成賽道上，一場關(guān)于技術(shù)路線的分野正在悄然形成。當(dāng)行業(yè)普遍聚焦于畫面精度提升時，Anuttacon公司推出的LPM 1.0模型卻以"無限時長"交互能力引發(fā)關(guān)注。這款由米哈游前董事長蔡浩宇主導(dǎo)研發(fā)的模型，通過重構(gòu)視頻生成的技術(shù)范式，在實時交互領(lǐng)域開辟出全新戰(zhàn)場。

傳統(tǒng)AI視頻生成模型長期受困于"表演三難困境"：在追求畫面真實度（表現(xiàn)質(zhì)量）、即時響應(yīng)速度（實時推理）和持續(xù)穩(wěn)定性（長程穩(wěn)定性）時，三者往往難以兼得。主流模型在生成30秒以上視頻時，常出現(xiàn)角色面部特征突變、身份錯亂等"自回歸漂移"現(xiàn)象。LPM 1.0通過引入在線流式生成架構(gòu)，將170億參數(shù)的擴散模型壓縮為"主干-精煉器"雙層結(jié)構(gòu)，在內(nèi)存占用恒定條件下實現(xiàn)身份一致性突破。

技術(shù)突破的核心在于分布匹配蒸餾訓(xùn)練法。該模型將視頻生成過程分解為粗粒度軌跡控制與高保真細(xì)節(jié)還原兩個階段，主干網(wǎng)絡(luò)確保角色身份持續(xù)穩(wěn)定，精煉器則負(fù)責(zé)捕捉微表情變化。在官方演示中，系統(tǒng)成功生成45分鐘連貫視頻，角色在持續(xù)對話中始終保持身份統(tǒng)一，這在現(xiàn)有技術(shù)體系中堪稱革命性進(jìn)展。

交互能力的升級同樣引人注目。LPM 1.0首次實現(xiàn)全雙工音視頻對話，通過雙路音頻流處理技術(shù)，使AI既能根據(jù)自身話語驅(qū)動口型同步，又能實時響應(yīng)用戶語音。當(dāng)檢測到用戶語氣變化時，系統(tǒng)可自動生成挑眉、點頭等28種微表情，配合呼吸頻率調(diào)整，使虛擬角色呈現(xiàn)出近似真人的交互質(zhì)感。盡管當(dāng)前畫面分辨率仍存在提升空間，但這種"數(shù)字生命"的進(jìn)化方向已清晰可見。

支撐技術(shù)突破的，是米哈游積累的獨特數(shù)據(jù)資產(chǎn)。不同于短視頻平臺的海量泛化數(shù)據(jù)，Anuttacon構(gòu)建了包含78種情感類別、5000個動作描述符的結(jié)構(gòu)化表演數(shù)據(jù)庫。其"身份感知參考圖像管線"要求輸入全局外觀、多視角圖像及8類表情范例，這種工業(yè)級品控標(biāo)準(zhǔn)源自游戲開發(fā)中對角色塑造的嚴(yán)苛要求。在訓(xùn)練階段，系統(tǒng)對傾聽行為進(jìn)行350萬次標(biāo)注，使AI掌握對話間隙的呼吸節(jié)奏與猶豫停頓，精準(zhǔn)命中行業(yè)痛點。

商業(yè)化路徑選擇凸顯戰(zhàn)略考量。Anuttacon明確拒絕開源模型權(quán)重，將LPM定位為虛擬角色交互領(lǐng)域的視覺引擎。在算力成本方面，雖然單GPU可實現(xiàn)0.35秒處理1秒視頻，但大規(guī)模并發(fā)場景仍面臨硬件壓力。其首款買斷制游戲《星之低語》以33.99元定價試水C端市場，雖因上下文銜接問題暫未引爆市場，卻驗證了技術(shù)可行性。當(dāng)前重點轉(zhuǎn)向B端場景，虛擬主播、AI客服等需要24小時穩(wěn)定運行的領(lǐng)域，成為模型落地的首要突破口。

這項技術(shù)對內(nèi)容創(chuàng)作生態(tài)的潛在影響正在顯現(xiàn)。當(dāng)用戶僅需提供照片和文本描述即可驅(qū)動AI完成表演，傳統(tǒng)UGC平臺的建模門檻將被徹底打破。Anuttacon的野心不止于技術(shù)供應(yīng)商，其構(gòu)建的"照片-對話-表演"創(chuàng)作鏈條，正在為新型互動媒體形態(tài)奠定基礎(chǔ)。在蔡浩宇的布局中，這場關(guān)于數(shù)字生命的競賽，或許才剛剛拉開序幕。

更多>同類內(nèi)容