论文阅读_字节的语音生成模型_Seed-TTS

最新推荐文章于 2025-03-13 16:39:14 发布

xieyan0811

最新推荐文章于 2025-03-13 16:39:14 发布

阅读量1.4k

点赞数 13

分类专栏：论文阅读文章标签：论文阅读

本文链接：https://blog.csdn.net/xieyan0811/article/details/140756055

版权

论文阅读专栏收录该内容

96 篇文章

订阅专栏

英文名称: Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
中文名称: Seed-TTS：高质量多功能语音生成模型系列
链接: http://arxiv.org/abs/2406.02430v1
代码: https://github.com/BytedanceSpeech/seed-tts-eval (评测工具)
演示网站：https://bytedancespeech.github.io/seedtts_tech_report/
作者: Seed Team
机构: 字节跳动
日期: 2024-06-04

摘要

目标：提出 Seed-TTS，一种大规模自回归文本转语音模型，主要用于生成几乎无法区分人类语音的语音。

方法：提出了自蒸馏方法用于语音因子分解，以及强化学习方法用于增强模型鲁棒性、说话者相似度和可控性。另外，提出了一种非自回归（NAR）变体 Seed-TTS_DiT，采用全扩散式架构。

结论：Seed-TTS 在说话者相似度和自然度方面表现出色，通过微调实现了更高的主观评分。Seed-TTS 能够对各种语音属性进行优越控制，如情感，并能够为非实验室说话者生成高度表现力丰富和多样化的语音。它展示出在语音编辑方面的有效性。

读后感

看到演示网站上的效果，语音编辑（Content Editing）还挺惊艳的，几乎可以以假乱真。

它可以调整情感、语调和说话风格，包括但不限于：愤怒（Angry）、快乐（Happy）、悲伤（Sad）、温柔（Tender）、困惑（Confused）和恐惧（Fear）。在说话风格方面，还能调整为正式、非正式和戏剧化等。

在技术方面，他们提出了自蒸馏方法，并对比了完全的扩散模型和自回归语言模型的建模方法，算法方面确实有干货。

语音分解和降低能耗是未来的重要方向；语音编辑和视频翻译配音也是非常精准的使用场景；这确实是一个专注于视频领域团队的优秀作品。

1 引言

Seed TTS 可以在零样本条件下创建可控且高保真的合成语音（无需训练，提供示例即可克隆）。该模型在虚拟助手、有声读物和视频配音等应用中具有巨大的潜力。

论文在三个任务上对其进行了评估：零样本语音上下文学习（ICL）、说话人微调和情绪控制。此外，还开源了测试工具：seed-tts-eval。

主要贡献如下：

在零样本 ICL 设置下，证明 Seed-TTS 能生成健壮、相似且高度动态的语音，这些语音与人类语音难以区分。
提出了一种新的自蒸馏扩展，用于 Seed-TTS 的音色解耦，并展示了其在语音转换任务中的最先进性能。
引入了一种基于 RL 的新型后训练扩展，全面提升了 Seed-TTS 模型的性能。
展示了一种完全基于扩散的新型 Seed-TTS 变体，实现更优质的生成效果。并展示了其在语音编辑任务中的优势，同时将其与基于语言模型的同类模型进行了比较。

2 方法

Seed-TTS 是一种基于自回归转换器的模型，如图 -1 所示。系统由四个主要组件组成：语音标记器、令牌语言模型、令牌扩散模型和声学声码器。Seed-TTS 在大量数据上进行训练，其训练数据规模比以前最大的 TTS 系统大几个数量级，从而实现了强大的泛化能力和涌现能力。

在这里插入图片描述
图 1：Seed-TTS 推理管道概述。（1）语音标记器从参考语音中学习标记。（2）自回归语言模型根据条件文本和语音生成语音标记。（3）扩散转换器模型在给定生成的语音标记后，从粗到细地生成连续的语音表示。（4）声学声码器从扩散输出中产生更高质量的语音。

Seed-TTS 经过三个训练阶段：预训练、微调和后训练。

预训练阶段旨在最大限度地提高场景和说话者的覆盖范围，同时为通用语音建模建立强大的基础。在此阶段，Seed-TTS 使用的训练数据量和模型规模比以前的语音生成模型大几个数量级。
微调阶段包括发音者微调和指令微调。发音者微调侧重于提高一组选定发音者的性能，而指令微调旨在提高系统对用户指令的可控性和交互性。
后训练通过强化学习进行，以进一步优化模型。

作为语音生成的基础模型，Seed-TTS 可以执行多种任务，包括零样本语音延续、可控 TTS、跨语言 TTS、语音转换、声音合成以及说话风格迁移。

（小编说：此处并未详细说明模型实现的具体方法）