人工智能里常见的自然语言生成、系列到系列学习、可控的系列生成

  再举一个歌声合成的例子。歌声合成是曲谱和歌词合成声音实际上它和语音合成非常类似。两者相比最大的区别在于语音中的人声音高和时长基本上是比较平稳的确定的,比如男生音高大概是一两百赫兹女生音高大概是两三百赫兹。
  但歌声却不一样一个八度频率就会翻倍这么宽的频带会给建模带来非常大的挑战另外,唱歌的时候经常容易过快或过慢比如像 Rap 每个音发很短而一些慢歌一个音会发很长这种特点就会造成我们在生成音频波形的时候非常不稳定。
  针对歌声合成中遇到过的这些挑战我们设计了一系列工作来解决其中一项工作是 HIFISinger它是专门针对高保真的音频进行合成,48K 的采样率能传达出比较丰富的歌声细节我们通过一些改进的对象生成网络,以及系统性的设计来解决最后合成了效果比较不错的歌声。
  举的这些例子主要涉及哪些通用的方法呢整个 AI 生成任务大概涉及两部分技术方法一部分是通用的比如人工智能里常见的自然语言生成系列到系列学习、可控的系列生成语音合成,以及声音生成里的声码器常见的生成模型等等还有一些通用的学习范式比如半监督学习、自监督学习或者低资源的一些机器学习。
  另一部分是问题特有的只能具体问题具体解决要想在这些任务里面做得更好,比如你要做到稳定鲁棒,要让音质的效果好,要有完整的结构和情绪推动,都存在很大的挑战。像在歌声合成里面,有很多人声特有的一些唱歌技巧,比如说颤音、滑音,或是把京剧、戏腔加入到歌声中,建模都非常困难。这是我们目前要往下进行的研究关注点,也是整个行业需要关注的一些问题。
  InfoQ:您刚和我们介绍了目前团队在 AI 音乐方向上的研究现状以及挑战,能介绍一下当前 AI 音乐的整体应用情况吗?
  谭旭:其实计算机音乐的应用场景是一直都有的,可能这几年 AI 刚火,大家才有 AI 音乐这个概念。在过去,大家习惯叫计算机音乐或是音乐信息检索,典型的应用场景就是帮助我们更好地组织、管理、检索、推荐音乐。此外还有音乐风格分类,通过歌词搜索歌曲等等。在音乐教学中,AI 音乐也有很多应用。比如对弹奏出来的声音进行分析,看曲谱卡拍有没有卡准,转换是否出现问题,从而帮助人们更好地去学习某项乐器。在音乐生成方向上也有一些应用,比如现在很多短视频的配乐工作,或是通过 AI 辅导人类去创作等等。我认为从目前的技术来讲,还没有做到 AI 生成的音乐是完全不需要任何人工参与,就是一个完整的产品音乐。可能随着技术的不断发展,未来或许能够解决。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值