长语句语音合成--Dynamic Convolution Attention (DCA)

1 简介

本文根据2020年《LOCATION-RELATIVE ATTENTION MECHANISMS FOR ROBUST LONG-FORM SPEECH SYNTHESIS》翻译总结的。

基于注意力的端到端的text-to-speech (TTS) 系统尽管有能力在域内产生人类水平的语音合成,但在域外文本处理上容易出现文本对齐失败的情况。这些失败很可能是因为采用了简单的location-relative 注意力机制,其废除了基于内容的query/key比较。我们比较了两种注意力机制:location-relative GMM-based mechanisms 、 additive energy-based mechanisms。

Tacotron 采用的content-based 的注意力机制,来对齐文本和声谱(spectrogram)。
Tacotron2 采用混合的 location-sensitive机制,结合了content-based和location-based的。

贡献:一是我们改进了GMM-based mechanisms,提出GMM v2;二是我们把location-relative 注意力引入到additive energy-based,创建了Dynamic Convolution Attention (DCA)。

从标题可以看出来我们提出的两个方法在处理长语句上效果很好。

2 注意力机制的两大家族

2.1 基本建设

我们基于Tacotron来描述。
在这里插入图片描述

整体公式如下:
在这里插入图片描述

2.2 GMM-Based 机制

序列到序列的注意力机制最开始提出的时候就是纯 location-based 。主要的公式如下,其中计算完公式7后,再采用下面表格1的逻辑计算ω、Δ、σ,再计算公式5、6。表格中的v0版本就是最原始的版本,我们提出了V1、V2版,V1和V2版本使用了归一化混合权重,V2又使用了softplus函数:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.3 Additive Energy-Based 机制

这种注意力机制是使用多层感知机(MLP)计算能量e,然后使用softmax函数转换为注意力权重α。也包括content-based、混合 location-sensitive注意力机制。

在这里插入图片描述

公式8的不同参数代表不同的注意力机制,如下:
在这里插入图片描述

2.4 Dynamic Convolution Attention

location-relative 机制像GMM 注意力,但期望完全归一化的注意力权重。尽管GMM attention的V1和V2版本使用了归一化混合权重,但权重最终还是非归一化的,因为它们从一个连续概率密度函数中采样。这可能在对齐上导致偶尔的刺突和dropout,尝试直接归一化GMM注意力权重会导致不稳定的训练。DCA是energy-based attention,默认归一化,对于不同的单调对齐任务工作的很好。

GMM attention的另一个问题是它使用带着无限支持的分布的混合,它必然不是单调的。在任何时候,该机制都可以选择强调平均值位于序列中较早点的分量,或可以扩展组件的方差以在时间上向后看,可能会损害对齐的稳定性。

在这里插入图片描述

为了防止动态过滤器将事情向后,我们使用单独的固定的prior filter使对齐向前一些。我们使用二项式分布的值设置prior filter,其是两个参数的离散分布,带有有限支持,如下。

在这里插入图片描述

3 实验结果

3.1 域内知识结果

可以看到我们提出的GMMv2b(GMM v2 版带了初始偏置bias)、DCA在域名知识中表现不差。

在这里插入图片描述

3.2 长语句生成

GMMv2b(GMM v2 版带了初始偏置bias)、DCA在长语句上比content-based、location-sensitive效果好很多。

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值