在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

哥大博士突破機器人“恐怖谷”!自監(jiān)督學(xué)習(xí)讓機器人唇部“活”起來,11種語言同步無壓力

   發(fā)布時間:2026-02-10 00:30 作者:顧雨柔

在人機交互領(lǐng)域,如何讓機器人擁有更自然的面部表情始終是科研人員關(guān)注的焦點。近期,哥倫比亞大學(xué)博士胡宇航帶領(lǐng)團隊在面部機器人研究上取得突破性進展,其研發(fā)的Emo面部機器人通過創(chuàng)新技術(shù)實現(xiàn)了與人類語音同步的唇部運動,相關(guān)成果登上《科學(xué)·機器人學(xué)》封面,引發(fā)學(xué)界與產(chǎn)業(yè)界的廣泛關(guān)注。

傳統(tǒng)機器人研發(fā)往往聚焦于運動能力或操作性能,但胡宇航團隊選擇了一條差異化路徑——賦予機器人情感表達(dá)能力。這項研究始于哥倫比亞大學(xué)的博士課題,經(jīng)過兩年積累已在《科學(xué)》《自然》子刊發(fā)表三篇論文。團隊發(fā)現(xiàn),嘴唇作為人類交流中動作最頻繁的面部器官,其運動復(fù)雜性遠(yuǎn)超想象:不僅由多組肌肉群協(xié)同驅(qū)動,還需同步傳遞語言、情感與社交信號,對時間精度要求極高。

針對這一挑戰(zhàn),研究團隊摒棄了傳統(tǒng)基于固定音素-視位映射的規(guī)則方法。該方法需為每個音素設(shè)計特定嘴型,但存在三大缺陷:無法適應(yīng)不同語速與情緒狀態(tài)下的發(fā)音差異;多語言場景需重新設(shè)計規(guī)則,工作量巨大;硬件升級后需徹底重構(gòu)動作系統(tǒng)。更關(guān)鍵的是,人類發(fā)音中音素與嘴型并非簡單對應(yīng),而是受語境、語速、情緒等多重因素影響,呈現(xiàn)高度連續(xù)的動態(tài)特征。

團隊提出的解決方案是構(gòu)建數(shù)據(jù)驅(qū)動的自監(jiān)督學(xué)習(xí)系統(tǒng)。該系統(tǒng)分為兩個階段:首先通過"照鏡子"訓(xùn)練建立機器人自我模型——隨機生成數(shù)千種面部表情并觀察反饋,使系統(tǒng)掌握自身硬件的運動邊界;隨后引入人類視頻數(shù)據(jù),學(xué)習(xí)嘴唇運動的統(tǒng)計規(guī)律與高層時序結(jié)構(gòu),并通過自我模型將其轉(zhuǎn)化為機器人可執(zhí)行的動作。這種設(shè)計有效避免了跨形態(tài)直接模仿導(dǎo)致的域錯配問題,為自然唇部運動奠定了基礎(chǔ)。

在評估方法上,研究團隊創(chuàng)新性地采用合成參考視頻作為基準(zhǔn),通過變分自編碼器潛空間計算機器人唇部運動與參考視頻的偏差。該方法突破了傳統(tǒng)二維關(guān)鍵點檢測易受噪聲干擾的局限,能夠精準(zhǔn)刻畫嘴型動態(tài)與時序結(jié)構(gòu)的差異,為連續(xù)語音與多語言場景下的音頻-視覺同步誤差評估提供了客觀標(biāo)準(zhǔn)。

實驗數(shù)據(jù)顯示,該系統(tǒng)在11種語言中均能實現(xiàn)自然唇部同步,包括英語、法語、日語、中文等。這種跨語言能力源于模型對底層肌肉運動模式的學(xué)習(xí)——它捕捉的是聲音節(jié)奏與嘴唇動作間的共性規(guī)律,而非特定語言的發(fā)音規(guī)則。例如,不同語言中硬輔音(如/b/、/p/)的發(fā)音雖差異顯著,但都遵循相似的"閉合-保持-釋放"運動軌跡,系統(tǒng)通過學(xué)習(xí)這種本質(zhì)關(guān)系實現(xiàn)了泛化。

盡管取得突破,研究仍面臨挑戰(zhàn)。硬輔音處理是當(dāng)前技術(shù)瓶頸,這類發(fā)音涉及多重物理約束:嘴唇需在毫秒級時間內(nèi)完成精確閉合與釋放,同時協(xié)調(diào)多個自由度運動,并應(yīng)對軟體接觸、非線性阻尼等復(fù)雜因素。系統(tǒng)在極端場景(如極快語速、多人對話、歌唱顫音)下的表現(xiàn)仍有提升空間。胡宇航指出,這些局限恰恰為未來研究指明了方向——通過引入更豐富的訓(xùn)練數(shù)據(jù)與優(yōu)化模型架構(gòu),有望逐步擴展系統(tǒng)的適用邊界。

當(dāng)被問及技術(shù)擴展性時,胡宇航確認(rèn)團隊正將研究從唇部動作延伸至整個面部表情系統(tǒng)。下一步計劃是協(xié)調(diào)唇部、眼神、眉毛等面部要素,構(gòu)建統(tǒng)一細(xì)膩的情感表達(dá)框架。這項探索不僅關(guān)乎技術(shù)突破,更觸及人機交互的本質(zhì):當(dāng)機器人能用整張臉傳遞情緒時,人類與機器的關(guān)系將迎來更深層次的變革。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容