Generate speech at the frame level
统计参数TTS:
文本前端:提取语言特征
声学特征预测模型
基于信号处理的声音合成器
优点:
减轻了复杂的工作
可以应对复杂的条件和多种情况(语者,语种,情感)
相较多阶段模型,鲁棒性更高
TTS:解压(文字->声音),输出是连续的,输出序列会比输入序列要长的多
Tacotron:端到端生成式TTS模型,基于seq2seq
输入:字符串
输出:声谱图(spectrogram)
转接入Griffin-Lim重建算法来合成语音
前人工作:
WaveNet:
语音生成模型,慢(由于样本级的自回归)
不是端到端的:需要由TTS前端产生的语言学特征作为条件
DeepVoice:
将传统TTS流水线的每一个部分用对应的神经网络取代
每一个部分独立训练
Wang's Work:
最早使用seq2seq with attention做端到端的TTS
需要一个预训练的HMM(Hidden Markov Model)校准器使seq2seq模型学会对齐
训练模型时使用了小技巧
需要一个声音合成器
基于音素输入做训练,实验结果有限
Char2Wav:
端到端模型
seq2seq和SampleRNN需要分别预训练
模型结构:
核心:
seq2seq model with attention
Encoder
Attention-based Decoder
Post-processing Net
CBHG(modified model for machine translation):
1-D Convolution Bank:Conv1D bank +