GST:端到端语音合成中的无监督风格建模、控制和传输

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

本文发表于arxiv https://arxiv.org/pdf/1803.09017.pdf

Abstract

这篇论文介绍了一种名为“全局风格标记”(Global Style Tokens,GSTs)的方法,在Tacotron这一最先进的端到端语音合成系统中进行联合训练。这些嵌入表示没有经过明确的标注,但却学会了建模各种各样的声学表现。GSTs带来了一系列重要的结果。它们生成的软解释性“标签”可以用于以新颖的方式控制合成,例如独立于文本内容地改变语速和说话风格。它们还可以用于风格转移,即在整个长篇文本语料库中复制单个音频剪辑的说话风格。当在嘈杂、未标记的现成数据上进行训练时,GSTs学会了分解噪声和说话者身份,为高度可扩展但稳健的语音合成提供了一条途径。

目前存在的问题

在风格建模中存在几个挑战。
首先,没有客观的度量来衡量“正确”的韵律风格,这使得建模和评估都变得困难。获取大型数据集的注释可能成本高昂,而且同样存在问题,因为人类评价者经常意见不一致。
其次,具有高动态范围的表现力声音很难建模。许多TTS模型,包括最近的端到端系统,只学习其输入数据上的平均韵律分布,特别是对于长篇短语,生成的语音不够表现力。
此外,它们经常缺乏控制合成语音表达方式的能力。本文通过向Tacotron引入“全局风格标记”(Global Style Tokens,GSTs)来解决上述问题,Tacotron是一种最先进的端到端TTS模型。GSTs在没有任何韵律标签的情况下进行训练,但是却揭示了大范围的表现风格。内部架构本身产生了可解释的软“标签”,可以用于执行各种风格控制和转移任务,从而显著改善了表现力长篇合成。GSTs可以直接应用于嘈杂、未标记的现成数据,为高度可扩展但稳健的语音合成提供了一条途径。

模型架构

模型基于Tacotron,这是一个序列到序列(seq2seq)模型,可以直接从字素或音素输入预测mel频谱图。这些mel频谱图可以通过低资源的反演算法或神经声码器(例如WaveNet,van den Oord et al., 2016)转换为波形。我们指出,对于Tacotron模型来说,声码器的选择不会影响韵律,韵律是由seq2seq模型进行建模的。我们提出的GST模型如图1所示,包括参考编码器,风格注意力,风格嵌入以及序列到序列(Tacotron)模型。
在这里插入图片描述
训练时的梅尔频谱图被送到reference encoder中,接着是style token layer,style embedding用来调整Tacotron text encoder states。
推理时,输入Reference audio;或者删掉reference encoder,直接控制合成。

Training

在训练过程中,信息通过模型流动如下:

  • The reference encoder,(Skerry-Ryan et al., 2018)将可变长度的音频信号的韵律压缩为固定长度的向量,我们称之为参考嵌入。在训练过程中,参考信号是地面实况音频。
  • 参考嵌入传递给style token layer,在这里它被用作注意力模块的查询向量。在这里,注意力不是用来学习对齐的,而是学习参考嵌入与随机初始化的一组嵌入中的每一个令牌之间的相似度度量。这组嵌入,我们交替地称之为全局风格标记、GSTs 或令牌嵌入,是共享的,对所有训练序列都有效。
  • 注意力模块输出一组组合权重,表示每个风格标记对编码的参考嵌入的贡献。GSTs的加权和,我们称之为风格嵌入,被传递给文本编码器,在每个时间步进行条件编码。
  • The style token layer与模型的其余部分联合训练,仅受来自Tacotron解码器的重构损失的驱动。因此,GSTs不需要任何显式的风格或韵律标签。

Inference

  1. 我们可以直接在文本编码器上对某些令牌进行条件编码,如图1中推理模式图表的右侧所示(“在令牌B上条件编码”)。这允许进行风格控制和操作,而无需参考信号。
  2. 我们可以提供不同的音频信号(其转录不需要与要合成的文本匹配)以实现风格转移。这在图1中推理模式图表的左侧所示(“在音频信号上条件编码”)。这些将在第6节中更详细地讨论。

模型细节

Tacotron Architecture

我们的基线和增强了GST的Tacotron系统使用与(Wang et al., 2017a)相同的体系结构和超参数,除了一些细节。我们使用音素输入来加快训练速度,并略微改变了解码器,用两层256单元的LSTM代替了GRU单元;这些通过概率为0.1的zoneout (Krueger et al., 2017) 进行了正则化。解码器输出80通道的logmel频谱图能量,每次两帧,然后通过一个膨胀卷积网络,输出线性频谱图。我们通过Griffin-Lim进行快速波形重构。可以直接用WaveNet声码器替换Griffin-Lim以提高音频保真度 (Shen et al., 2017)。

REFERENCE ENCODER

参考编码器由一个卷积堆栈和一个RNN组成。它以log-mel频谱图作为输入,首先通过一个包含6个2D卷积层的堆栈处理,每个卷积层使用3×3的卷积核、2×2的步幅、批量归一化和ReLU激活函数。对于这6个卷积层,我们分别使用32、32、64、64、128和128个输出通道。然后,将生成的输出张量重新形状为3维(保持输出时间分辨率),并将其馈送到一个单层128单元的单向GRU中。最后一个GRU状态作为参考嵌入,然后被馈送作为输入到风格标记层。

STYLE TOKEN LAYER

风格标记层由一组风格标记嵌入和一个注意力模块组成。除非另有说明,我们的实验使用10个标记,我们发现这足以表示训练数据中一小部分但丰富的韵律维度。为了与文本编码器状态的维度匹配,每个标记嵌入都是256维。类似地,文本编码器状态使用tanh激活;我们发现在应用注意力之前将GSTs应用于tanh激活可以导致更大的标记多样性。基于内容的tanh注意力使用softmax激活来输出一组对标记的组合权重;然后使用所得到的加权组合的GSTs进行条件编码。我们尝试了不同的条件编码位置的组合,并发现复制风格嵌入并将其简单添加到每个文本编码器状态中效果最好。虽然我们在本文中使用基于内容的注意力作为相似度度量,但替代方法可以轻松替换。点积注意力、基于位置的注意力,甚至是注意力机制的组合可能会学习不同类型的风格标记。在我们的实验中,我们发现使用多头注意力(Vaswani et al., 2017)可以显著提高风格转移的性能,并且比简单增加标记的数量更有效。当使用h个注意力头时,我们将标记嵌入大小设置为256/h,并连接注意力输出,以使最终的风格嵌入大小保持不变。

模型解读

端到端聚类/量化

直觉上,GST模型可以被看作是将参考嵌入分解为一组基向量或软聚类的端到端方法 - 即风格标记。如上所述,每个风格标记的贡献由注意力分数表示,但可以用任何所需的相似度度量来替代。GST层在概念上与VQ-VAE编码器(van den Oord et al., 2017)有些类似,因为它学习了其输入的量化表示。我们还尝试用离散的、类似VQ的查找表层替换GST层,但尚未看到可比较的结果。这种分解概念也可以推广到其他模型,例如(Hsu et al., 2017)中的分解变分潜在模型,该模型通过在一个分解的层次图模型中明确地表达语音信号的多尺度性质来利用语音信号的多尺度性质。其序列相关先验是由嵌入表来表达的,这与GST类似,但没有基于注意力的聚类。GSTs 可能可以用于减少学习每个先验嵌入所需的样本数。

增强记忆神经网络

GST嵌入也可以被视为一个外部记忆,它存储从训练数据中提取的风格信息。在训练时,参考信号引导内存写入,而在推理时则是内存读取。我们可以利用最近关于增强记忆网络(Graves et al., 2014)的进展来进一步改进GST的学习。

Conclusions and Discussions

这项工作介绍了全局风格标记(GSTs),这是一种在端到端TTS系统中建模风格的强大方法。GSTs直观、易于实现,并且可以在没有明确标签的情况下学习。我们已经证明,当在具有表现力的语音数据上进行训练时,GST模型产生的可解释嵌入可以用于控制和转移风格。我们还展示了,尽管最初是为了建模说话风格,但GSTs是一种揭示数据中潜在变化的通用技术。这得到了对未标记的嘈杂发现数据的实验证实,实验证明GST模型学会将各种噪声和说话者因素分解为单独的风格标记。仍有许多需要探讨的问题,包括改进对GST的学习,以及使用GST权重作为从文本预测的目标。最后,尽管我们在这项工作中只将GST应用于Tacotron,但我们相信它可以轻松地应用于其他类型的端到端TTS模型。更普遍地,我们设想GST可以应用于其他受益于可解释性、可控性和鲁棒性的问题领域。例如,GST可以类似地应用于文本到图像和神经机器翻译模型中。

  • 15
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值