Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
本文发表于arxiv https://arxiv.org/pdf/1803.09017.pdf
Abstract
这篇论文介绍了一种名为“全局风格标记”(Global Style Tokens,GSTs)的方法,在Tacotron这一最先进的端到端语音合成系统中进行联合训练。这些嵌入表示没有经过明确的标注,但却学会了建模各种各样的声学表现。GSTs带来了一系列重要的结果。它们生成的软解释性“标签”可以用于以新颖的方式控制合成,例如独立于文本内容地改变语速和说话风格。它们还可以用于风格转移,即在整个长篇文本语料库中复制单个音频剪辑的说话风格。当在嘈杂、未标记的现成数据上进行训练时,GSTs学会了分解噪声和说话者身份,为高度可扩展但稳健的语音合成提供了一条途径。
目前存在的问题
在风格建模中存在几个挑战。
首先,没有客观的度量来衡量“正确”的韵律风格,这使得建模和评估都变得困难。获取大型数据集的注释可能成本高昂,而且同样存在问题,因为人类评价者经常意见不一致。
其次,具有高动态范围的表现力声音很难建模。许多TTS模型,包括最近的端到端系统,只学习其输入数据上的平均韵律分布,特别是对于长篇短语,生成的语音不够表现力。
此外,它们经常缺乏控制合成语