Audio Super Resolution with Neural Networks

本文介绍了使用神经网络进行音频超分辨率的研究,该技术通过Encoder-Decoder模型将低分辨率音频转换为高分辨率。尽管存在数据集依赖和不同低通滤波方式的影响,但实验结果显示在恢复高频信息方面表现良好。该模型适用于实时处理,且具有潜力,但也指出在领域迁移和不同降采样方式下的局限性。
摘要由CSDN通过智能技术生成

Audio Super Resolution with Neural Networks

论文:Audio Super Resolution with Neural Networks
代码: Github

CV方向的超分辨研究已经非常多了,但是音频方向的超分辨研究却相对较少。作者的这篇文章就是开山之作,已经发表在ICLR2017上,从项目主页的Demo来看,效果还不错。但是作者也指出了几个问题:

  • 如果想把这个模型用在自己的数据上,需要多搜集一些自己的数据训练,意思就是换个数据集可能就不好使了,毕竟每个数据集有一些差别
  • 作者的低分辨率音频是通过低通滤波下采样得到的,所以对于不同的低通滤波方式,算法产生的效果差别就很大。如果是你自己的低分辨率音频,你根本不知道这个音频是哪种低通滤波产生的,所以效果可能会打折扣
  • 如果是用人声训练出来的模型,应用到钢琴,音乐上,效果就会很差

总体思想

输入低分辨率的音频时间序列,训练一个Encoder-Decoder模型,输出高分辨率的音频时间序列。思路和CV的超分辨其实差不多。就是在低分辨率音频信号中插入高分辨细节。

网络结构如下:


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值