豆包App近日在語(yǔ)音對(duì)話功能上實(shí)現(xiàn)重大突破,正式上線方言交互能力。用戶現(xiàn)可通過(guò)語(yǔ)音或文字指令,體驗(yàn)與AI使用地道方言對(duì)話的全新場(chǎng)景,該功能覆蓋粵語(yǔ)、四川話、東北話及陜西話四種主流方言。
技術(shù)層面,該功能依托豆包自主研發(fā)的語(yǔ)音模型方言遷移技術(shù),突破傳統(tǒng)多音色方案限制,實(shí)現(xiàn)單音色靈活切換多方言的能力。系統(tǒng)可根據(jù)用戶對(duì)話意圖,自動(dòng)識(shí)別并切換至指定方言進(jìn)行回應(yīng),同時(shí)保持"溫柔桃子"升級(jí)版音色的自然度與流暢性。測(cè)試數(shù)據(jù)顯示,方言切換響應(yīng)時(shí)間控制在0.3秒以內(nèi),用戶幾乎感受不到延遲。
在方言識(shí)別方面,豆包已構(gòu)建覆蓋18種方言的語(yǔ)音識(shí)別體系,除支持對(duì)話輸出的四種方言外,還能準(zhǔn)確理解上海話、南京話、天津話等地域方言的語(yǔ)音指令。這項(xiàng)突破得益于ASR(自動(dòng)語(yǔ)音識(shí)別)技術(shù)的深度優(yōu)化,通過(guò)構(gòu)建方言語(yǔ)音特征庫(kù)與神經(jīng)網(wǎng)絡(luò)模型,使方言轉(zhuǎn)文本的準(zhǔn)確率提升至92%以上,較傳統(tǒng)方案效率提升40%。
用戶操作流程極簡(jiǎn)化設(shè)計(jì):打開(kāi)豆包App進(jìn)入對(duì)話界面,輸入"用四川話聊天"等指令,系統(tǒng)即刻切換至方言模式。實(shí)測(cè)顯示,在地鐵、商場(chǎng)等嘈雜環(huán)境中,方言識(shí)別率仍能保持87%以上的準(zhǔn)確度。技術(shù)團(tuán)隊(duì)透露,后續(xù)將開(kāi)放方言音色定制功能,允許用戶上傳方言樣本訓(xùn)練專屬語(yǔ)音模型。
方言功能的上線標(biāo)志著AI語(yǔ)音交互進(jìn)入地域化深度適配階段。行業(yè)分析師指出,方言技術(shù)的突破不僅解決中老年用戶的使用障礙,更在文化傳承層面具有特殊價(jià)值。數(shù)據(jù)顯示,我國(guó)仍有超4億人口以方言為主要交流方式,方言語(yǔ)音交互市場(chǎng)的潛在規(guī)模達(dá)百億級(jí)別。























