1)
预训练TTS系统,即tacotron2时,根据decoder hidden state 和encoder output,即根据目标隐状态-绿色的和每个源状态-蓝色实心的,“相比”,以生成注意力权重(attention weights)矩阵也称为对齐(alignments)
根据注意力权重,可以计算上下文向量作为源状态的加权平均。
2)
可以使用不同的score函数:
基于内容的注意力机制能够将不同的输出与相应的输入元素连接,而与其位置无关。在Tacotron2中使用基于内容的注意力机制时,当输出对应于's'的Mel频谱帧,模型会寻找所有所有对应于's'的输入。
基于位置的注意力机制仅关心序列元素的位置和它们之间的距离。基于位置的注意力机制会忽略静音或减少它们,因为该注意力机制没有发现输入的内容。
混合注意力机制能够同时考虑内容和输入元素的位置。
3)
Tacotron2注意力机制,使用的Score函数,是基于Location Sensitive Attention,
Text-audio Alignment与encoder output矩阵相乘,得到Attended output
链接:https://www.cnblogs.com/mengnan/p/9527797.html
4)code
Alignment : [T_dec, T_enc]
encoder output: [T_enc, chn.encoder=512]
矩阵相乘:[T_dec, chn.encoder=512],是具有(decoder hidden"相关"的)敏感位置信息的attended encoder output
transpose: [512, T_dec]