哥大博士突破機器人交互瓶頸：唇部同步技術(shù)讓機器人臉告別“面癱” 跨11國語言-AI+-智快網(wǎng)

哥大博士突破機器人交互瓶頸：唇部同步技術(shù)讓機器人臉告別“面癱” 跨11國語言

發(fā)布時間：2026-02-10 09:22 來源：快訊作者：任飛揚

在人與人的交流中，我們的目光常常聚焦于對方的眼睛，這不僅是情感傳遞的窗口，更是理解彼此意圖的重要途徑。然而，當環(huán)境變得嘈雜，視線便不自覺地轉(zhuǎn)向嘴唇，試圖通過唇形變化捕捉言語中的微妙信息。這種自然的交流方式，卻成為當前人形機器人研發(fā)中的一大挑戰(zhàn)——如何讓機器人的面部表情，尤其是唇部動作，更加自然流暢，成為跨越“恐怖谷效應(yīng)”的關(guān)鍵。

哥倫比亞大學博士胡宇航創(chuàng)立的首形科技，正致力于破解這一難題。這家初創(chuàng)公司不走尋常路，將研發(fā)重心放在賦予機器人面部情緒表達能力上，而非追求運動或操作能力的極致。這一策略成效顯著，不僅贏得了多輪融資，更在社交媒體和市場上引發(fā)廣泛關(guān)注。近日，胡宇航團隊的研究成果登上《科學·機器人學》封面，展示了其研發(fā)的Emo面部機器人如何實現(xiàn)與語音、歌曲同步的唇部運動，標志著人臉機器人領(lǐng)域的一大突破。

胡宇航指出，嘴唇是面部動作最豐富的部位，其運動復雜性遠超想象。不同于眉毛等單一方向運動的面部特征，嘴唇由多個肌肉群驅(qū)動，運動過程中頻繁接觸與分離，對時間精度極為敏感，同時承載語言、情感與社交信號。這使得嘴唇運動的建模成為一項高維、非線性、強閉環(huán)的生成式形變問題，挑戰(zhàn)重重。

面對如此復雜的任務(wù)，如何客觀衡量機器人嘴唇運動的“真實性”成為關(guān)鍵。胡宇航團隊提出創(chuàng)新方法，利用合成參考視頻作為理想同步基準，在VAE編碼器的潛空間中計算機器人嘴唇運動與參考視頻之間的距離，從而刻畫整體嘴型動態(tài)與時序結(jié)構(gòu)的偏差。這一方法避免了依賴易受噪聲干擾的二維關(guān)鍵點，為連續(xù)語音與多語言場景下的音頻-視覺同步誤差評估提供了客觀度量標準。

傳統(tǒng)機器人嘴唇同步方法主要依賴手工預定義的運動規(guī)則和固定的音素-視位映射表，存在明顯局限。同一音素的發(fā)聲速度因說話人、場景或情緒而異，多語言、歌唱或方言等場景下基于音素設(shè)計規(guī)則需投入巨大手工工作量，且機器人硬件升級時所有動作幾乎需重新編排。這種方法隱含音素與嘴型穩(wěn)定一對一映射的假設(shè)，與真實人類發(fā)音機制不符，導致生成嘴型序列“正確但僵硬”。

相比之下，數(shù)據(jù)驅(qū)動方法能夠從真實人類與機器人發(fā)音數(shù)據(jù)中學習復雜統(tǒng)計規(guī)律與隱含約束，突破規(guī)則方法在泛化性、可擴展性和自然性上的瓶頸。胡宇航團隊設(shè)計的兩階段“自監(jiān)督學習系統(tǒng)”正是這一思路的體現(xiàn)：第一階段機器人“照鏡子”建立自我模型，明確自身硬件與軟體結(jié)構(gòu)下可實現(xiàn)的運動；第二階段觀看人類視頻學習嘴唇運動規(guī)律，并通過自我模型將這些規(guī)律投射到自身可執(zhí)行的動作空間中。

實驗結(jié)果顯示，該系統(tǒng)能在11種語言中實現(xiàn)自然的嘴唇同步，包括英語、法語、日語、韓語等。這一“跨語言”能力源于系統(tǒng)學習的是人類發(fā)音過程中更底層的肌肉運動模式，而非具體語言或音素。在兩階段自監(jiān)督框架下，模型捕捉聲音節(jié)奏與嘴唇動作之間跨越語言邊界的共性規(guī)律，如張合節(jié)律、閉合-釋放結(jié)構(gòu)等，從而適應(yīng)多種語言、語速和說話風格。

盡管成果顯著，系統(tǒng)仍面臨技術(shù)挑戰(zhàn)，尤其是硬輔音（如/b/、/p/、/m/、/w/）的處理。這些音素發(fā)音速度快，涉及多重約束條件，如/b/、/p/、/m/需在極短時間內(nèi)完成“閉合—保持—釋放”動作，/w/則要求雙唇閉攏、前突形成圓形，同時配合口腔形狀連續(xù)變化。模型需在毫秒級時間精度下協(xié)調(diào)多個高度耦合的自由度，應(yīng)對軟體接觸、非線性阻尼等物理因素，難度極高。

當前方法在極端語音場景下表現(xiàn)欠佳，如語速極快、多人同時說話、歌唱顫音等。胡宇航認為，這反映了方法的本質(zhì)邊界，即模型主要學習典型對話語境下聲學時序與嘴唇運動之間的關(guān)系。然而，這些失效案例也為未來研究指明了方向，隨著訓練數(shù)據(jù)豐富和模型能力提升，邊界場景處理能力有望逐步改善。

當被問及技術(shù)是否會從唇部動作擴展到整個面部表情系統(tǒng)時，胡宇航給出肯定回答。他表示，團隊最終目標是實現(xiàn)完整的類人交互，協(xié)調(diào)唇部動作與眼神、眉毛等其他面部要素，形成統(tǒng)一而細膩的情感表達。這不僅是技術(shù)上的自然延伸，更是對人機交互本質(zhì)的深度探索。當機器人能夠用整張臉來表達和理解情緒時，它與人類的關(guān)系將發(fā)生更深刻的轉(zhuǎn)變。

更多>同類內(nèi)容

91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

哥大博士突破機器人交互瓶頸：唇部同步技術(shù)讓機器人臉告別“面癱” 跨11國語言