91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

哥大博士突破機器人交互瓶頸:唇部同步技術(shù)讓機器人臉告別“面癱” 跨11國語言

   發(fā)布時間:2026-02-10 09:22 作者:任飛揚

在人與人的交流中,我們的目光常常聚焦于對方的眼睛,這不僅是情感傳遞的窗口,更是理解彼此意圖的重要途徑。然而,當環(huán)境變得嘈雜,視線便不自覺地轉(zhuǎn)向嘴唇,試圖通過唇形變化捕捉言語中的微妙信息。這種自然的交流方式,卻成為當前人形機器人研發(fā)中的一大挑戰(zhàn)——如何讓機器人的面部表情,尤其是唇部動作,更加自然流暢,成為跨越“恐怖谷效應(yīng)”的關(guān)鍵。

哥倫比亞大學博士胡宇航創(chuàng)立的首形科技,正致力于破解這一難題。這家初創(chuàng)公司不走尋常路,將研發(fā)重心放在賦予機器人面部情緒表達能力上,而非追求運動或操作能力的極致。這一策略成效顯著,不僅贏得了多輪融資,更在社交媒體和市場上引發(fā)廣泛關(guān)注。近日,胡宇航團隊的研究成果登上《科學·機器人學》封面,展示了其研發(fā)的Emo面部機器人如何實現(xiàn)與語音、歌曲同步的唇部運動,標志著人臉機器人領(lǐng)域的一大突破。

胡宇航指出,嘴唇是面部動作最豐富的部位,其運動復雜性遠超想象。不同于眉毛等單一方向運動的面部特征,嘴唇由多個肌肉群驅(qū)動,運動過程中頻繁接觸與分離,對時間精度極為敏感,同時承載語言、情感與社交信號。這使得嘴唇運動的建模成為一項高維、非線性、強閉環(huán)的生成式形變問題,挑戰(zhàn)重重。

面對如此復雜的任務(wù),如何客觀衡量機器人嘴唇運動的“真實性”成為關(guān)鍵。胡宇航團隊提出創(chuàng)新方法,利用合成參考視頻作為理想同步基準,在VAE編碼器的潛空間中計算機器人嘴唇運動與參考視頻之間的距離,從而刻畫整體嘴型動態(tài)與時序結(jié)構(gòu)的偏差。這一方法避免了依賴易受噪聲干擾的二維關(guān)鍵點,為連續(xù)語音與多語言場景下的音頻-視覺同步誤差評估提供了客觀度量標準。

傳統(tǒng)機器人嘴唇同步方法主要依賴手工預定義的運動規(guī)則和固定的音素-視位映射表,存在明顯局限。同一音素的發(fā)聲速度因說話人、場景或情緒而異,多語言、歌唱或方言等場景下基于音素設(shè)計規(guī)則需投入巨大手工工作量,且機器人硬件升級時所有動作幾乎需重新編排。這種方法隱含音素與嘴型穩(wěn)定一對一映射的假設(shè),與真實人類發(fā)音機制不符,導致生成嘴型序列“正確但僵硬”。

相比之下,數(shù)據(jù)驅(qū)動方法能夠從真實人類與機器人發(fā)音數(shù)據(jù)中學習復雜統(tǒng)計規(guī)律與隱含約束,突破規(guī)則方法在泛化性、可擴展性和自然性上的瓶頸。胡宇航團隊設(shè)計的兩階段“自監(jiān)督學習系統(tǒng)”正是這一思路的體現(xiàn):第一階段機器人“照鏡子”建立自我模型,明確自身硬件與軟體結(jié)構(gòu)下可實現(xiàn)的運動;第二階段觀看人類視頻學習嘴唇運動規(guī)律,并通過自我模型將這些規(guī)律投射到自身可執(zhí)行的動作空間中。

實驗結(jié)果顯示,該系統(tǒng)能在11種語言中實現(xiàn)自然的嘴唇同步,包括英語、法語、日語、韓語等。這一“跨語言”能力源于系統(tǒng)學習的是人類發(fā)音過程中更底層的肌肉運動模式,而非具體語言或音素。在兩階段自監(jiān)督框架下,模型捕捉聲音節(jié)奏與嘴唇動作之間跨越語言邊界的共性規(guī)律,如張合節(jié)律、閉合-釋放結(jié)構(gòu)等,從而適應(yīng)多種語言、語速和說話風格。

盡管成果顯著,系統(tǒng)仍面臨技術(shù)挑戰(zhàn),尤其是硬輔音(如/b/、/p/、/m/、/w/)的處理。這些音素發(fā)音速度快,涉及多重約束條件,如/b/、/p/、/m/需在極短時間內(nèi)完成“閉合—保持—釋放”動作,/w/則要求雙唇閉攏、前突形成圓形,同時配合口腔形狀連續(xù)變化。模型需在毫秒級時間精度下協(xié)調(diào)多個高度耦合的自由度,應(yīng)對軟體接觸、非線性阻尼等物理因素,難度極高。

當前方法在極端語音場景下表現(xiàn)欠佳,如語速極快、多人同時說話、歌唱顫音等。胡宇航認為,這反映了方法的本質(zhì)邊界,即模型主要學習典型對話語境下聲學時序與嘴唇運動之間的關(guān)系。然而,這些失效案例也為未來研究指明了方向,隨著訓練數(shù)據(jù)豐富和模型能力提升,邊界場景處理能力有望逐步改善。

當被問及技術(shù)是否會從唇部動作擴展到整個面部表情系統(tǒng)時,胡宇航給出肯定回答。他表示,團隊最終目標是實現(xiàn)完整的類人交互,協(xié)調(diào)唇部動作與眼神、眉毛等其他面部要素,形成統(tǒng)一而細膩的情感表達。這不僅是技術(shù)上的自然延伸,更是對人機交互本質(zhì)的深度探索。當機器人能夠用整張臉來表達和理解情緒時,它與人類的關(guān)系將發(fā)生更深刻的轉(zhuǎn)變。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群