长语句语音合成--Dynamic Convolution Attention (DCA)

最新推荐文章于 2024-06-23 09:33:24 发布

AI强仔

最新推荐文章于 2024-06-23 09:33:24 发布

阅读量537

点赞数 1

分类专栏：语音合成文章标签：语音识别深度学习人工智能

语音合成专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1 简介

本文根据2020年《LOCATION-RELATIVE ATTENTION MECHANISMS FOR ROBUST LONG-FORM SPEECH SYNTHESIS》翻译总结的。

基于注意力的端到端的text-to-speech (TTS) 系统尽管有能力在域内产生人类水平的语音合成，但在域外文本处理上容易出现文本对齐失败的情况。这些失败很可能是因为采用了简单的location-relative 注意力机制，其废除了基于内容的query/key比较。我们比较了两种注意力机制：location-relative GMM-based mechanisms 、 additive energy-based mechanisms。

Tacotron 采用的content-based 的注意力机制，来对齐文本和声谱（spectrogram）。
Tacotron2 采用混合的 location-sensitive机制，结合了content-based和location-based的。

贡献：一是我们改进了GMM-based mechanisms，提出GMM v2；二是我们把location-relative 注意力引入到additive energy-based，创建了Dynamic Convolution Attention (DCA)。

从标题可以看出来我们提出的两个方法在处理长语句上效果很好。

2 注意力机制的两大家族

2.1 基本建设

我们基于Tacotron来描述。
在这里插入图片描述

整体公式如下：
在这里插入图片描述

2.2 GMM-Based 机制

序列到序列的注意力机制最开始提出的时候就是纯 location-based 。主要的公式如下，其中计算完公式7后，再采用下面表格1的逻辑计算ω、Δ、σ，再计算公式5、6。表格中的v0版本就是最原始的版本，我们提出了V1、V2版，V1和V2版本使用了归一化混合权重，V2又使用了softplus函数：
在这里插入图片描述

在这里插入图片描述

2.3 Additive Energy-Based 机制

这种注意力机制是使用多层感知机（MLP）计算能量e，然后使用softmax函数转换为注意力权重α。也包括content-based、混合 location-sensitive注意力机制。

在这里插入图片描述

公式8的不同参数代表不同的注意力机制，如下：
在这里插入图片描述

2.4 Dynamic Convolution Attention

location-relative 机制像GMM 注意力，但期望完全归一化的注意力权重。尽管GMM attention的V1和V2版本使用了归一化混合权重，但权重最终还是非归一化的，因为它们从一个连续概率密度函数中采样。这可能在对齐上导致偶尔的刺突和dropout，尝试直接归一化GMM注意力权重会导致不稳定的训练。DCA是energy-based attention，默认归一化，对于不同的单调对齐任务工作的很好。

GMM attention的另一个问题是它使用带着无限支持的分布的混合，它必然不是单调的。在任何时候，该机制都可以选择强调平均值位于序列中较早点的分量，或可以扩展组件的方差以在时间上向后看，可能会损害对齐的稳定性。

在这里插入图片描述

为了防止动态过滤器将事情向后，我们使用单独的固定的prior filter使对齐向前一些。我们使用二项式分布的值设置prior filter，其是两个参数的离散分布，带有有限支持，如下。

在这里插入图片描述

3 实验结果

3.1 域内知识结果

可以看到我们提出的GMMv2b(GMM v2 版带了初始偏置bias)、DCA在域名知识中表现不差。

在这里插入图片描述

3.2 长语句生成

GMMv2b(GMM v2 版带了初始偏置bias)、DCA在长语句上比content-based、location-sensitive效果好很多。

在这里插入图片描述

AI强仔

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
长语句语音合成--Dynamic Convolution Attention (DCA)

1 简介本文根据2020年《LOCATION-RELATIVE ATTENTION MECHANISMS FOR ROBUST LONG-FORM SPEECH SYNTHESIS》翻译总结的。基于注意力的端到端的text-to-speech (TTS) 系统尽管有能力在域内产生人类水平的语音合成，但在域外文本处理上容易出现文本对齐失败的情况。这些失败很可能是因为采用了简单的location-relative 注意力机制，其废除了基于内容的query/key比较。我们比较了两种注意力机制：locatio
复制链接

扫一扫

专栏目录