小米再推語音新模型：MiMo-V2.5-TTS與ASR補齊語音全鏈路，支持方言混說-產業-智快網

小米再推語音新模型：MiMo-V2.5-TTS與ASR補齊語音全鏈路，支持方言混說

發布時間：2026-04-24 18:09 來源：快訊作者：鐘景軒

小米技術團隊在語音技術領域再推重磅成果。繼MiMo-V2.5系列大模型開啟公測后，團隊于今日正式發布MiMo-V2.5-TTS語音合成系列與MiMo-V2.5-ASR語音識別模型，完成語音交互全鏈路技術布局。此次發布涵蓋從聲音生成到語音轉寫的完整解決方案，為智能設備語音交互能力帶來顯著提升。

TTS系列包含三款創新模型，形成差異化技術矩陣。基礎版MiMo-V2.5-TTS內置20余種專業音色庫，支持語速、音高、情感強度等參數實時調節，用戶可通過自然語言指令實現"溫柔勸導"或"嚴厲警告"等復雜語氣表達。VoiceDesign模型突破傳統音色生成范式，僅需輸入"25歲女聲，帶江南口音"等文字描述，即可在3秒內合成全新音色，無需提供任何音頻樣本。旗艦版VoiceClone模型則展現高保真復刻能力，通過5秒參考音頻即可精準捕捉聲紋特征，同時保留對情感、語速等維度的控制權限，官方演示中成功復現了包含"陰陽怪氣"等微妙情緒的語音樣本。

作為技術底座的MiMo-V2.5-ASR模型采用開源策略，同步公開模型權重與訓練代碼。該模型專門針對真實場景優化，在方言識別方面支持吳語、粵語等8種中文方言，對中英文混雜、專業術語等復雜語料的轉寫準確率提升37%。通過引入多通道聲源分離技術，模型在咖啡廳、地鐵站等強噪音環境下仍能保持92%以上的識別率，并支持最多6人同時對話的實時轉寫。輸出端創新采用結構化文本格式，自動添加逗號、句號等標點符號，轉寫結果可直接用于文檔處理。

目前TTS系列已上線MiMo Studio開發平臺，提供可視化調參界面與API接口。ASR模型代碼與預訓練權重同步登陸GitHub及HuggingFace模型庫，支持PyTorch與TensorFlow雙框架部署。技術文檔顯示，團隊正在研發支持環境音效生成的AudioCraft模塊，并計劃通過上下文記憶機制提升多輪對話的連貫性，相關功能預計在第三季度進入內測階段。

更多>同類內容