TACONTRON: A Fully End-to-End Text-To-Speech Synthesis Model

最新推荐文章于 2024-08-16 20:10:22 发布

DreaMaker丶

最新推荐文章于 2024-08-16 20:10:22 发布

阅读量1k

点赞数 1

分类专栏： TTS AI RNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zxrttcsdn/article/details/89309962

版权

TACONTRON是一种全端到端的文本转语音（TTS）模型，采用seq2seq结构，输入为字符串，输出为声谱图。与传统的TTS系统相比，它简化了流程，提高了鲁棒性，能够应对多种情况。模型包括CBHG模块、注意力机制的解码器和后处理网络，通过Griffin-Lim算法合成语音。相比WaveNet和DeepVoice等模型，TACONTRON更强调端到端的生成能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Generate speech at the frame level

统计参数TTS:
文本前端：提取语言特征
声学特征预测模型
基于信号处理的声音合成器

优点：
减轻了复杂的工作
可以应对复杂的条件和多种情况（语者，语种，情感）
相较多阶段模型，鲁棒性更高

TTS：解压（文字->声音），输出是连续的，输出序列会比输入序列要长的多

Tacotron：端到端生成式TTS模型，基于seq2seq
输入：字符串
输出：声谱图（spectrogram）
转接入Griffin-Lim重建算法来合成语音

前人工作：
WaveNet：
语音生成模型，慢（由于样本级的自回归）
不是端到端的：需要由TTS前端产生的语言学特征作为条件

DeepVoice：
将传统TTS流水线的每一个部分用对应的神经网络取代
每一个部分独立训练

Wang's Work:
最早使用seq2seq with attention做端到端的TTS
需要一个预训练的HMM（Hidden Markov Model）校准器使seq2seq模型学会对齐
训练模型时使用了小技巧
需要一个声音合成器
基于音素输入做训练，实验结果有限

Char2Wav：
端到端模型
seq2seq和SampleRNN需要分别预训练

模型结构：
核心：
seq2seq model with attention
Encoder
Attention-based Decoder
Post-processing Net

CBHG（modified model for machine translation）：
1-D Convolution Bank：Conv1D bank +

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。