1 简介
本文根据2020年《LOCATION-RELATIVE ATTENTION MECHANISMS FOR ROBUST LONG-FORM SPEECH SYNTHESIS》翻译总结的。
基于注意力的端到端的text-to-speech (TTS) 系统尽管有能力在域内产生人类水平的语音合成,但在域外文本处理上容易出现文本对齐失败的情况。这些失败很可能是因为采用了简单的location-relative 注意力机制,其废除了基于内容的query/key比较。我们比较了两种注意力机制:location-relative GMM-based mechanisms 、 additive energy-based mechanisms。
Tacotron 采用的content-based 的注意力机制,来对齐文本和声谱(spectrogram)。
Tacotron2 采用混合的 location-sensitive机制,结合了content-based和location-based的。
贡献:一是我们改进了GMM-based mechanisms,提出GMM v2;二是我们把location-relative 注意力引入到additive energy-based,创建了Dynamic Convolution Attention (DCA)。
从标题可以看出来我们提出的两个方法在处理长语句上效果很好。
2 注意力机制的两大家族
2.1 基本建设
我们基于Tacotron来描述。
整体公式如下:
2.2 GMM-Based 机制
序列到序列的注意力机制最开始提出的时候就是纯 location-based 。主要的公式如下,其中计算完公式7后,再采用下面表格1的逻辑计算ω、Δ、σ,再计算公式5、6。表格中的v0版本就是最原始的版本,我们提出了V1、V2版,V1和V2版本使用了归一化混合权重,V2又使用了softplus函数:
2.3 Additive Energy-Based 机制
这种注意力机制是使用多层感知机(MLP)计算能量e,然后使用softmax函数转换为注意力权重α。也包括content-based、混合 location-sensitive注意力机制。
公式8的不同参数代表不同的注意力机制,如下:
2.4 Dynamic Convolution Attention
location-relative 机制像GMM 注意力,但期望完全归一化的注意力权重。尽管GMM attention的V1和V2版本使用了归一化混合权重,但权重最终还是非归一化的,因为它们从一个连续概率密度函数中采样。这可能在对齐上导致偶尔的刺突和dropout,尝试直接归一化GMM注意力权重会导致不稳定的训练。DCA是energy-based attention,默认归一化,对于不同的单调对齐任务工作的很好。
GMM attention的另一个问题是它使用带着无限支持的分布的混合,它必然不是单调的。在任何时候,该机制都可以选择强调平均值位于序列中较早点的分量,或可以扩展组件的方差以在时间上向后看,可能会损害对齐的稳定性。
为了防止动态过滤器将事情向后,我们使用单独的固定的prior filter使对齐向前一些。我们使用二项式分布的值设置prior filter,其是两个参数的离散分布,带有有限支持,如下。
3 实验结果
3.1 域内知识结果
可以看到我们提出的GMMv2b(GMM v2 版带了初始偏置bias)、DCA在域名知识中表现不差。
3.2 长语句生成
GMMv2b(GMM v2 版带了初始偏置bias)、DCA在长语句上比content-based、location-sensitive效果好很多。