人工智能里常见的自然语言生成、系列到系列学习、可控的系列生成

最新推荐文章于 2023-12-15 11:22:59 发布

科技全景

最新推荐文章于 2023-12-15 11:22:59 发布

阅读量266

点赞数

文章标签： big data 人工智能大数据

本文链接：https://blog.csdn.net/weixin_45836589/article/details/121630200

版权

　　再举一个歌声合成的例子。歌声合成是曲谱和歌词合成声音，实际上它和语音合成非常类似。两者相比最大的区别在于，语音中的人声音高和时长基本上是比较平稳的、确定的，比如男生音高大概是一两百赫兹，女生音高大概是两三百赫兹。
　　但歌声却不一样，一个八度频率就会翻倍，这么宽的频带会给建模带来非常大的挑战。另外，唱歌的时候经常容易过快或过慢，比如像 Rap 每个音发很短，而一些慢歌一个音会发很长，这种特点就会造成我们在生成音频波形的时候非常不稳定。
　　针对歌声合成中遇到过的这些挑战，我们设计了一系列工作来解决。其中一项工作是 HIFISinger，它是专门针对高保真的音频进行合成，48K 的采样率，能传达出比较丰富的歌声细节。我们通过一些改进的对象生成网络，以及系统性的设计来解决，最后合成了效果比较不错的歌声。
　　举的这些例子主要涉及哪些通用的方法呢？整个 AI 生成任务大概涉及两部分技术方法，一部分是通用的，比如人工智能里常见的自然语言生成、系列到系列学习、可控的系列生成、语音合成，以及声音生成里的声码器、常见的生成模型等等。还有一些通用的学习范式，比如半监督学习、自监督学习，或者低资源的一些机器学习。
　　另一部分是问题特有的，只能具体问题具体解决。要想在这些任务里面做得更好，比如你要做到稳定鲁棒，要让音质的效果好，要有完整的结构和情绪推动，都存在很大的挑战。像在歌声合成里面，有很多人声特有的一些唱歌技巧，比如说颤音、滑音，或是把京剧、戏腔加入到歌声中，建模都非常困难。这是我们目前要往下进行的研究关注点，也是整个行业需要关注的一些问题。
　　InfoQ：您刚和我们介绍了目前团队在 AI 音乐方向上的研究现状以及挑战，能介绍一下当前 AI 音乐的整体应用情况吗？
　　谭旭：其实计算机音乐的应用场景是一直都有的，可能这几年 AI 刚火，大家才有 AI 音乐这个概念。在过去，大家习惯叫计算机音乐或是音乐信息检索，典型的应用场景就是帮助我们更好地组织、管理、检索、推荐音乐。此外还有音乐风格分类，通过歌词搜索歌曲等等。在音乐教学中，AI 音乐也有很多应用。比如对弹奏出来的声音进行分析，看曲谱卡拍有没有卡准，转换是否出现问题，从而帮助人们更好地去学习某项乐器。在音乐生成方向上也有一些应用，比如现在很多短视频的配乐工作，或是通过 AI 辅导人类去创作等等。我认为从目前的技术来讲，还没有做到 AI 生成的音乐是完全不需要任何人工参与，就是一个完整的产品音乐。可能随着技术的不断发展，未来或许能够解决。

科技全景

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
人工智能里常见的自然语言生成、系列到系列学习、可控的系列生成

　　再举一个歌声合成的例子。歌声合成是曲谱和歌词合成声音，实际上它和语音合成非常类似。两者相比最大的区别在于，语音中的人声音高和时长基本上是比较平稳的、确定的，比如男生音高大概是一两百赫兹，女生音高大概是两三百赫兹。　　但歌声却不一样，一个八度频率就会翻倍，这么宽的频带会给建模带来非常大的挑战。另外，唱歌的时候经常容易过快或过慢，比如像 Rap 每个音发很短，而一些慢歌一个音会发很长，这种特点就会造成我们在生成音频波形的时候非常不稳定。　　针对歌声合成中遇到过的这些挑战，我们设计了一系列工作来解决。其中
复制链接

扫一扫