StyleTTS 2 是一款创新的文本转语音(TTS)模型,通过使用样式扩散和大规模语音语言模型(SLM)的对抗训练,实现了接近人类水平的TTS合成。以下是StyleTTS 2在技术上的几个关键点和其在性能上的突出表现:
技术重点
-
样式扩散(Style Diffusion):
StyleTTS 2 将语音样式建模为一个潜在随机变量,并通过概率扩散模型进行采样。这种方法使得模型能够高效地合成高度真实的语音,而无需参考音频。这不仅提高了模型的生成速度,还保持了扩散模型带来的多样化语音合成能力 。 -
大规模预训练语音语言模型(SLM):
StyleTTS 2 利用了诸如Wav2Vec 2.0、HuBERT和WavLM等大规模预训练的语音语言模型作为判别器,结合新颖的可微分持续时间建模方法进行端到端训练。这种方法通过SLM的表示来增强合成语音的自然度,从而将大规模SLM的知识迁移到语音生成任务中 。 -
端到端(E2E)训练:
StyleTTS 2 采用端到端的训练过程,同时优化所有组件,避免了传统的需要预训练声码器将mel谱图转换为波形的过程。这种方式使得整个模型的训练和推理更加