小米技術團隊在語音技術領域再推重磅成果。繼MiMo-V2.5系列大模型開啟公測后,團隊于今日正式發布MiMo-V2.5-TTS語音合成系列與MiMo-V2.5-ASR語音識別模型,完成語音交互全鏈路技術布局。此次發布涵蓋從聲音生成到語音轉寫的完整解決方案,為智能設備語音交互能力帶來顯著提升。
TTS系列包含三款創新模型,形成差異化技術矩陣。基礎版MiMo-V2.5-TTS內置20余種專業音色庫,支持語速、音高、情感強度等參數實時調節,用戶可通過自然語言指令實現"溫柔勸導"或"嚴厲警告"等復雜語氣表達。VoiceDesign模型突破傳統音色生成范式,僅需輸入"25歲女聲,帶江南口音"等文字描述,即可在3秒內合成全新音色,無需提供任何音頻樣本。旗艦版VoiceClone模型則展現高保真復刻能力,通過5秒參考音頻即可精準捕捉聲紋特征,同時保留對情感、語速等維度的控制權限,官方演示中成功復現了包含"陰陽怪氣"等微妙情緒的語音樣本。
作為技術底座的MiMo-V2.5-ASR模型采用開源策略,同步公開模型權重與訓練代碼。該模型專門針對真實場景優化,在方言識別方面支持吳語、粵語等8種中文方言,對中英文混雜、專業術語等復雜語料的轉寫準確率提升37%。通過引入多通道聲源分離技術,模型在咖啡廳、地鐵站等強噪音環境下仍能保持92%以上的識別率,并支持最多6人同時對話的實時轉寫。輸出端創新采用結構化文本格式,自動添加逗號、句號等標點符號,轉寫結果可直接用于文檔處理。
目前TTS系列已上線MiMo Studio開發平臺,提供可視化調參界面與API接口。ASR模型代碼與預訓練權重同步登陸GitHub及HuggingFace模型庫,支持PyTorch與TensorFlow雙框架部署。技術文檔顯示,團隊正在研發支持環境音效生成的AudioCraft模塊,并計劃通過上下文記憶機制提升多輪對話的連貫性,相關功能預計在第三季度進入內測階段。























