语音合成论文与韩国小哥“撞车”后续：英伟达“赶紧”把代码开源了

量子位

于 2018-11-10 13:04:58 发布

阅读量390

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/83965919

版权

乾明编辑整理
量子位出品 | 公众号 QbitAI

前两天，量子位报道了韩国小哥语音合成论文与英伟达撞车一事。

在得知自己的论文与英伟达的论文“撞车”之后，韩国小哥赶紧在arXiv上提交了论文。并在GitHub上放出了自己研究的源代码。

然后，在Reddit上分享了自己的这一遭遇，引发了大量围观。

英伟达论文的作者之一、负责应用深度学习的副总裁Bryan Catanzaro在回帖中点赞，并且抛出了橄榄枝，希望发帖者能够去英伟达实习。

640?wx_fmt=png

韩国的小哥有没有联系他，就不得而知了。

但是，英伟达也“赶紧”把自己研究的代码开源了。

主要内容一共有3个部分、10个小步骤，分别为设置、使用英伟达预置的模型生成音频、训练自己的模型。

640?wx_fmt=png

英伟达的这个项目，名叫WaveFlow，是一个用于音频合成基于流的生成网络。

关于WaveFlow

640?wx_fmt=png

英伟达的研究团队介绍称，WaveGlow结合了OpenAI的生成网络Glow和DeepMind的WaveNet，能够提供快速，高效和高质量的音频合成，而无需自动回归（auto-regression）。

而且，WaveGlow只用单一成本函数进行训练，然后使用单一网络实现，整个训练过程非常简单，而且也很稳定。

他们也介绍了使用PyTorch进行论文实现的情况：

在NVIDIA V100 GPU上以超过500 kHz的速率产生音频样本，平均意见得分表明，它合成的音频质量与最佳的公开WaveNet实现一样好。

在英伟达的官方网站上，研究团队发布了合成音频，及其与原始音频、开源WaveNet合成音频的对比（第一遍为原始音频，第二遍为WaveNet合成音频，第三遍为WaveGlow合成音频）：

传送门

英伟达GitHub地址：
https://github.com/NVIDIA/waveglow

英伟达论文地址：
https://arxiv.org/abs/1811.00002

韩国小哥GitHub地址：
https://github.com/ksw0306/FloWaveNet

韩国小哥论文地址：
https://arxiv.org/abs/1811.02155

— 完 —

年度评选申请

640?wx_fmt=jpeg

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

活动策划招聘

量子位正在招聘活动策划，将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入，并希望你能有一些活动策划或运营的相关经验。相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语音合成论文与韩国小哥“撞车”后续：英伟达“赶紧”把代码开源了

乾明编辑整理量子位出品 | 公众号 QbitAI前两天，量子位报道了韩国小哥语音合成论文与英伟达撞车一事。在得知自己的论文与英伟达的论文“撞车”之后，韩国小哥赶紧在a...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。