當一段語音不僅需要 “像某個人”、“準確地讀出每個字”, 還需要在不同內容中自然切換說話方式, 在幾十分鐘的敘述中持續(xù)穩(wěn)定, 在對話、角色、實時交互等不同形態(tài)下都能直接使用 —— 單一的 TTS 模型,往往已經(jīng)不夠用了。
就在今天,模思智能及 OpenMOSS 團隊再度上新,發(fā)布并開源了MOSS-TTS Family,一套面向高保真、高表現(xiàn)力與復雜場景生成的語音生成模型家族。
你可以用 MOSS-TTS Family 完成這些事情:
- 零樣本克隆說話人的音色與表達風格并精準控制語音時長,用于紀錄片、影視配音或新聞播報;
- 生成具備真實節(jié)奏的雙人或多人對話,用于播客、綜藝或解說;
- 通過指令設計帶有情緒與表演狀態(tài)的角色聲音;
- 為內容補全環(huán)境音與音效;
- 以及在實時 Voice Agent 系統(tǒng)中,以流式方式持續(xù)輸出自然語音;
從這些真實、明確的實際需求,我們不難看出,模思推出的 TTS 全家桶,并不是單一能力的堆疊,而是一整套可以直接接入創(chuàng)作流程、產品系統(tǒng)與交互場景的聲音生產工具鏈。
語音生成模型家族:全維度能力覆蓋
MOSS-TTS Family并不是對 “一個更大的 TTS 模型” 的追求。
相反,我們選擇將聲音生產拆解為多個真實存在的創(chuàng)作與應用環(huán)節(jié),并為每一個環(huán)節(jié)提供專門的模型支持,使它們既可以獨立使用,也可以組合成完整的工作流。
整個模型家族包含五個核心成員:
- MOSS-TTS:高保真、高表現(xiàn)力的語音生成基座,多語言、長音頻、精確時長控制;
- MOSS-TTSD:全面更新至 1.0 版本,面向真實對話場景的多說話人語音合成,包括但不限于播客等更多復雜對話場景;
- MOSS-VoiceGenerator:復雜文本指令跟隨、用于音色與角色設計;
- MOSS-SoundEffect:環(huán)境音與音效生成模型;
- MOSS-TTS-Realtime:面向實時交互的實時流式 TTS 模型;
它們共同構成了一個覆蓋 “穩(wěn)定生成、靈活設計、復雜對話、情境補全、實時交互” 的聲音創(chuàng)作生態(tài)閉環(huán)。
MOSS-TTS:高表現(xiàn)力語音生成基座
MOSS-TTS 是整個 MOSS-TTS Family 的基礎模型,也是所有聲音能力得以成立的前提。
它的核心目標是在真實內容與復雜場景中,穩(wěn)定地復現(xiàn)一個說話者的聲音特征、表達方式與語言習慣,并穩(wěn)定地生成長語音片段。
在下面的音頻示例中,我們將從多個維度展示 MOSS-TTS 的能力邊界。
零樣本音色復刻:從 “像聲音” 到 “像這個人說話”
音色克隆并不等同于音色相似。在真實內容中,人們更容易注意到的,往往是語速、韻律、停頓方式、情緒走向與整體說話風格是否一致。MOSS-TTS 的音色克隆能力,正是圍繞這些 “非顯性特征” 展開。
在業(yè)界權威測試集 Seed-TTS-eval 上,MOSS-TTS 的語音音色相似度超越了當前所有的開源模型和大多數(shù)閉源模型。
中文場景展示