GST:端到端语音合成中的无监督风格建模、控制和传输

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

本文发表于arxiv https://arxiv.org/pdf/1803.09017.pdf

Abstract

这篇论文介绍了一种名为“全局风格标记”(Global Style Tokens,GSTs)的方法,在Tacotron这一最先进的端到端语音合成系统中进行联合训练。这些嵌入表示没有经过明确的标注,但却学会了建模各种各样的声学表现。GSTs带来了一系列重要的结果。它们生成的软解释性“标签”可以用于以新颖的方式控制合成,例如独立于文本内容地改变语速和说话风格。它们还可以用于风格转移,即在整个长篇文本语料库中复制单个音频剪辑的说话风格。当在嘈杂、未标记的现成数据上进行训练时,GSTs学会了分解噪声和说话者身份,为高度可扩展但稳健的语音合成提供了一条途径。

目前存在的问题

在风格建模中存在几个挑战。
首先,没有客观的度量来衡量“正确”的韵律风格,这使得建模和评估都变得困难。获取大型数据集的注释可能成本高昂,而且同样存在问题,因为人类评价者经常意见不一致。
其次,具有高动态范围的表现力声音很难建模。许多TTS模型,包括最近的端到端系统,只学习其输入数据上的平均韵律分布,特别是对于长篇短语,生成的语音不够表现力。
此外,它们经常缺乏控制合成语

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值