GST：端到端语音合成中的无监督风格建模、控制和传输

最新推荐文章于 2024-09-18 16:35:29 发布

suskil

最新推荐文章于 2024-09-18 16:35:29 发布

阅读量1k

点赞数 15

分类专栏：论文精读文章标签：人工智能 python 语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46433387/article/details/136004902

版权

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

本文发表于arxiv https://arxiv.org/pdf/1803.09017.pdf

Abstract

这篇论文介绍了一种名为“全局风格标记”（Global Style Tokens，GSTs）的方法，在Tacotron这一最先进的端到端语音合成系统中进行联合训练。这些嵌入表示没有经过明确的标注，但却学会了建模各种各样的声学表现。GSTs带来了一系列重要的结果。它们生成的软解释性“标签”可以用于以新颖的方式控制合成，例如独立于文本内容地改变语速和说话风格。它们还可以用于风格转移，即在整个长篇文本语料库中复制单个音频剪辑的说话风格。当在嘈杂、未标记的现成数据上进行训练时，GSTs学会了分解噪声和说话者身份，为高度可扩展但稳健的语音合成提供了一条途径。

目前存在的问题

在风格建模中存在几个挑战。
首先，没有客观的度量来衡量“正确”的韵律风格，这使得建模和评估都变得困难。获取大型数据集的注释可能成本高昂，而且同样存在问题，因为人类评价者经常意见不一致。
其次，具有高动态范围的表现力声音很难建模。许多TTS模型，包括最近的端到端系统，只学习其输入数据上的平均韵律分布，特别是对于长篇短语，生成的语音不够表现力。
此外，它们经常缺乏控制合成语

最低0.47元/天解锁文章

博客等级

码龄5年

10
原创

111
点赞

123
收藏

82
粉丝

关注

私信

热门文章

分类专栏

最新评论

mfa thirdparty download无法下载的解决办法
suskil: 自己创建一个文件夹试试
mfa thirdparty download无法下载的解决办法
小杜℃: 请问我没有找到/thirdparty这个包是什么原因？mfa是3.2.0版本的
CALM：用于富有表现力的文本到语音合成的对比跨模态说话风格建模
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
CUDA与pytorch问题小结
CSDN-Ada助手: 恭喜作者撰写了这篇关于CUDA与pytorch的问题小结，内容相当精彩！希望作者可以继续保持创作的热情，分享更多关于深度学习和编程方面的经验和知识。或许可以考虑结合实际案例，分享一些在使用CUDA和pytorch时遇到的挑战和解决方案，这样可以更好地帮助读者理解和应用这些技术。期待作者的下一篇作品！
GST：端到端语音合成中的无监督风格建模、控制和传输
CSDN-Ada助手: 恭喜作者第五篇博客的问世！标题中提到的无监督风格建模、控制和传输在语音合成中的应用让人十分期待。不过，我个人觉得在这个话题上，如果能够加入一些具体的案例分析或者实验数据来支持观点会更有说服力。希望作者在下一篇博客中能够继续深入探讨这个话题，并且不断完善自己的观点。期待您更多的精彩内容！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。