哥大博士突破機器人“恐怖谷”！自監(jiān)督學(xué)習(xí)讓機器人唇部“活”起來，11種語言同步無壓力-游戲-沃資訊

哥大博士突破機器人“恐怖谷”！自監(jiān)督學(xué)習(xí)讓機器人唇部“活”起來，11種語言同步無壓力

發(fā)布時間：2026-02-10 00:30 來源：快訊作者：顧雨柔

在人機交互領(lǐng)域，如何讓機器人擁有更自然的面部表情始終是科研人員關(guān)注的焦點。近期，哥倫比亞大學(xué)博士胡宇航帶領(lǐng)團隊在面部機器人研究上取得突破性進展，其研發(fā)的Emo面部機器人通過創(chuàng)新技術(shù)實現(xiàn)了與人類語音同步的唇部運動，相關(guān)成果登上《科學(xué)·機器人學(xué)》封面，引發(fā)學(xué)界與產(chǎn)業(yè)界的廣泛關(guān)注。

傳統(tǒng)機器人研發(fā)往往聚焦于運動能力或操作性能，但胡宇航團隊選擇了一條差異化路徑——賦予機器人情感表達(dá)能力。這項研究始于哥倫比亞大學(xué)的博士課題，經(jīng)過兩年積累已在《科學(xué)》《自然》子刊發(fā)表三篇論文。團隊發(fā)現(xiàn)，嘴唇作為人類交流中動作最頻繁的面部器官，其運動復(fù)雜性遠(yuǎn)超想象：不僅由多組肌肉群協(xié)同驅(qū)動，還需同步傳遞語言、情感與社交信號，對時間精度要求極高。

針對這一挑戰(zhàn)，研究團隊摒棄了傳統(tǒng)基于固定音素-視位映射的規(guī)則方法。該方法需為每個音素設(shè)計特定嘴型，但存在三大缺陷：無法適應(yīng)不同語速與情緒狀態(tài)下的發(fā)音差異；多語言場景需重新設(shè)計規(guī)則，工作量巨大；硬件升級后需徹底重構(gòu)動作系統(tǒng)。更關(guān)鍵的是，人類發(fā)音中音素與嘴型并非簡單對應(yīng)，而是受語境、語速、情緒等多重因素影響，呈現(xiàn)高度連續(xù)的動態(tài)特征。

團隊提出的解決方案是構(gòu)建數(shù)據(jù)驅(qū)動的自監(jiān)督學(xué)習(xí)系統(tǒng)。該系統(tǒng)分為兩個階段：首先通過"照鏡子"訓(xùn)練建立機器人自我模型——隨機生成數(shù)千種面部表情并觀察反饋，使系統(tǒng)掌握自身硬件的運動邊界；隨后引入人類視頻數(shù)據(jù)，學(xué)習(xí)嘴唇運動的統(tǒng)計規(guī)律與高層時序結(jié)構(gòu)，并通過自我模型將其轉(zhuǎn)化為機器人可執(zhí)行的動作。這種設(shè)計有效避免了跨形態(tài)直接模仿導(dǎo)致的域錯配問題，為自然唇部運動奠定了基礎(chǔ)。

在評估方法上，研究團隊創(chuàng)新性地采用合成參考視頻作為基準(zhǔn)，通過變分自編碼器潛空間計算機器人唇部運動與參考視頻的偏差。該方法突破了傳統(tǒng)二維關(guān)鍵點檢測易受噪聲干擾的局限，能夠精準(zhǔn)刻畫嘴型動態(tài)與時序結(jié)構(gòu)的差異，為連續(xù)語音與多語言場景下的音頻-視覺同步誤差評估提供了客觀標(biāo)準(zhǔn)。

實驗數(shù)據(jù)顯示，該系統(tǒng)在11種語言中均能實現(xiàn)自然唇部同步，包括英語、法語、日語、中文等。這種跨語言能力源于模型對底層肌肉運動模式的學(xué)習(xí)——它捕捉的是聲音節(jié)奏與嘴唇動作間的共性規(guī)律，而非特定語言的發(fā)音規(guī)則。例如，不同語言中硬輔音（如/b/、/p/）的發(fā)音雖差異顯著，但都遵循相似的"閉合-保持-釋放"運動軌跡，系統(tǒng)通過學(xué)習(xí)這種本質(zhì)關(guān)系實現(xiàn)了泛化。

盡管取得突破，研究仍面臨挑戰(zhàn)。硬輔音處理是當(dāng)前技術(shù)瓶頸，這類發(fā)音涉及多重物理約束：嘴唇需在毫秒級時間內(nèi)完成精確閉合與釋放，同時協(xié)調(diào)多個自由度運動，并應(yīng)對軟體接觸、非線性阻尼等復(fù)雜因素。系統(tǒng)在極端場景（如極快語速、多人對話、歌唱顫音）下的表現(xiàn)仍有提升空間。胡宇航指出，這些局限恰恰為未來研究指明了方向——通過引入更豐富的訓(xùn)練數(shù)據(jù)與優(yōu)化模型架構(gòu)，有望逐步擴展系統(tǒng)的適用邊界。

當(dāng)被問及技術(shù)擴展性時，胡宇航確認(rèn)團隊正將研究從唇部動作延伸至整個面部表情系統(tǒng)。下一步計劃是協(xié)調(diào)唇部、眼神、眉毛等面部要素，構(gòu)建統(tǒng)一細(xì)膩的情感表達(dá)框架。這項探索不僅關(guān)乎技術(shù)突破，更觸及人機交互的本質(zhì)：當(dāng)機器人能用整張臉傳遞情緒時，人類與機器的關(guān)系將迎來更深層次的變革。

更多>同類內(nèi)容