TACONTRON: A Fully End-to-End Text-To-Speech Synthesis Model

Generate speech at the frame level

统计参数TTS:
    文本前端:提取语言特征
    声学特征预测模型
    基于信号处理的声音合成器

优点:
    减轻了复杂的工作
    可以应对复杂的条件和多种情况(语者,语种,情感)
    相较多阶段模型,鲁棒性更高

TTS:解压(文字->声音),输出是连续的,输出序列会比输入序列要长的多

Tacotron:端到端生成式TTS模型,基于seq2seq
                  输入:字符串
                  输出:声谱图(spectrogram)
                  转接入Griffin-Lim重建算法来合成语音


前人工作:
WaveNet:
    语音生成模型,慢(由于样本级的自回归)
    不是端到端的:需要由TTS前端产生的语言学特征作为条件

DeepVoice:
    将传统TTS流水线的每一个部分用对应的神经网络取代
    每一个部分独立训练

Wang's Work:
    最早使用seq2seq with attention做端到端的TTS
    需要一个预训练的HMM(Hidden Markov Model)校准器使seq2seq模型学会对齐
    训练模型时使用了小技巧
    需要一个声音合成器
    基于音素输入做训练,实验结果有限

Char2Wav:
    端到端模型
    seq2seq和SampleRNN需要分别预训练

    
模型结构:
核心:
    seq2seq model with attention
    Encoder
    Attention-based Decoder
    Post-processing Net

CBHG(modified model for machine translation):
    1-D Convolution Bank:Conv1D bank +

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值