TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)

夏天｜여름이다

已于 2025-03-08 21:52:59 修改

阅读量1.2w

点赞数 23

分类专栏： - Speech - # TTS - 生成模型 - 文章标签：人工智能语音合成 vits

于 2023-09-18 15:02:06 首次发布

本文链接：https://blog.csdn.net/weixin_44649780/article/details/132406232

版权

----------------------------------🗣️ 语音合成 VITS相关系列直达 🗣️ -------------------------------------

🫧VITS ：TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)

🫧MB-iSTFT-VITS：TTS | 轻量级语音合成论文详解及项目实现

🫧MB-iSTFT-VITS2：TTS | 轻量级VITS2的项目实现以及API设置-CSDN博客

🫧PolyLangVITS：MTTS | 多语言多人的VITS语音合成项目实现-CSDN博客

本文主要讲解了端到端的语音合成模型VITS论文及项目实现~

论文题目：2021_VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

Paper:Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech (arxiv.org)

Code:jaywalnut310/vits: VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech (github.com)

1.论文总结

提出一种TTS模型框架VITS，用到normalizing flow和对抗训练方法，提高合成语音自然度，其中论文结果上显示已经和GT相当。是结合了VAE和FLOW的新架构。

在俩各数据集中的实验结果

论文的主要贡献：

首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。
得益于图像领域中把Flow引入VAE提升生成效果的研究，成功把Flow-VAE应用到了完全E2E的TTS任务中。
训练非常简便，完全E2E。不需要像Fastspeech系列模型需要额外提pitch, energy等特征，也不像多数2-stage架构需要根据声学模型的输出来finetune声码器以达到最佳效果。
摆脱了预设的声学谱作为链接声学模型和声码器的特征，成功的应用来VAE去E2E的学习隐性表示来链接两个模块。
多人模型自然度不下降，不像其他模型趋于持平GT录音MOS分。

本文只详细翻译论文的第二部分，讲解模型的实现细节（编号与论文相同）。

2. 方法论Method

在这节中，论文解释了论文提出的方法以及构架，建议的方法主要在前三个小节：条件 VAE 表述(conditional VAE formulation)；由变异推理得出的配准估计(alignment estimaion derived from variational inference)；提高合成质量的对抗训练(adversarial estimation for improving synthesis quality)。整体架构将在本节末尾介绍。图 1a 和 1b 分别显示了我们方法的训练和推理过程。将方法称为带有对抗性学习的端到端文本到语音（VITS）。

2.1.可变推理

VITS 可以表示为条件 VAE，其目标是最大化可变下界，也称为证据下界 (ELBO)。其目标是最大化难以处理的数据的边际对数似然 log pθ(x|c)：