在AI視頻生成賽道上,一場關(guān)于技術(shù)路線的分野正在悄然形成。當(dāng)行業(yè)普遍聚焦于畫面精度提升時,Anuttacon公司推出的LPM 1.0模型卻以"無限時長"交互能力引發(fā)關(guān)注。這款由米哈游前董事長蔡浩宇主導(dǎo)研發(fā)的模型,通過重構(gòu)視頻生成的技術(shù)范式,在實時交互領(lǐng)域開辟出全新戰(zhàn)場。
傳統(tǒng)AI視頻生成模型長期受困于"表演三難困境":在追求畫面真實度(表現(xiàn)質(zhì)量)、即時響應(yīng)速度(實時推理)和持續(xù)穩(wěn)定性(長程穩(wěn)定性)時,三者往往難以兼得。主流模型在生成30秒以上視頻時,常出現(xiàn)角色面部特征突變、身份錯亂等"自回歸漂移"現(xiàn)象。LPM 1.0通過引入在線流式生成架構(gòu),將170億參數(shù)的擴散模型壓縮為"主干-精煉器"雙層結(jié)構(gòu),在內(nèi)存占用恒定條件下實現(xiàn)身份一致性突破。
技術(shù)突破的核心在于分布匹配蒸餾訓(xùn)練法。該模型將視頻生成過程分解為粗粒度軌跡控制與高保真細(xì)節(jié)還原兩個階段,主干網(wǎng)絡(luò)確保角色身份持續(xù)穩(wěn)定,精煉器則負(fù)責(zé)捕捉微表情變化。在官方演示中,系統(tǒng)成功生成45分鐘連貫視頻,角色在持續(xù)對話中始終保持身份統(tǒng)一,這在現(xiàn)有技術(shù)體系中堪稱革命性進(jìn)展。
交互能力的升級同樣引人注目。LPM 1.0首次實現(xiàn)全雙工音視頻對話,通過雙路音頻流處理技術(shù),使AI既能根據(jù)自身話語驅(qū)動口型同步,又能實時響應(yīng)用戶語音。當(dāng)檢測到用戶語氣變化時,系統(tǒng)可自動生成挑眉、點頭等28種微表情,配合呼吸頻率調(diào)整,使虛擬角色呈現(xiàn)出近似真人的交互質(zhì)感。盡管當(dāng)前畫面分辨率仍存在提升空間,但這種"數(shù)字生命"的進(jìn)化方向已清晰可見。
支撐技術(shù)突破的,是米哈游積累的獨特數(shù)據(jù)資產(chǎn)。不同于短視頻平臺的海量泛化數(shù)據(jù),Anuttacon構(gòu)建了包含78種情感類別、5000個動作描述符的結(jié)構(gòu)化表演數(shù)據(jù)庫。其"身份感知參考圖像管線"要求輸入全局外觀、多視角圖像及8類表情范例,這種工業(yè)級品控標(biāo)準(zhǔn)源自游戲開發(fā)中對角色塑造的嚴(yán)苛要求。在訓(xùn)練階段,系統(tǒng)對傾聽行為進(jìn)行350萬次標(biāo)注,使AI掌握對話間隙的呼吸節(jié)奏與猶豫停頓,精準(zhǔn)命中行業(yè)痛點。
商業(yè)化路徑選擇凸顯戰(zhàn)略考量。Anuttacon明確拒絕開源模型權(quán)重,將LPM定位為虛擬角色交互領(lǐng)域的視覺引擎。在算力成本方面,雖然單GPU可實現(xiàn)0.35秒處理1秒視頻,但大規(guī)模并發(fā)場景仍面臨硬件壓力。其首款買斷制游戲《星之低語》以33.99元定價試水C端市場,雖因上下文銜接問題暫未引爆市場,卻驗證了技術(shù)可行性。當(dāng)前重點轉(zhuǎn)向B端場景,虛擬主播、AI客服等需要24小時穩(wěn)定運行的領(lǐng)域,成為模型落地的首要突破口。
這項技術(shù)對內(nèi)容創(chuàng)作生態(tài)的潛在影響正在顯現(xiàn)。當(dāng)用戶僅需提供照片和文本描述即可驅(qū)動AI完成表演,傳統(tǒng)UGC平臺的建模門檻將被徹底打破。Anuttacon的野心不止于技術(shù)供應(yīng)商,其構(gòu)建的"照片-對話-表演"創(chuàng)作鏈條,正在為新型互動媒體形態(tài)奠定基礎(chǔ)。在蔡浩宇的布局中,這場關(guān)于數(shù)字生命的競賽,或許才剛剛拉開序幕。




















