End-to-end music source separation: is it possible in the waveform domain?

文章见:http://arxiv-ai.com/discuss?id=1810.12187


大多数目前成功的源分离技术使用幅度谱图作为输入,因此默认情况下省略信号的一部分:相位。为避免遗漏可能有用的信息,请研究使用端到端模型进行音乐源分离的可行性 - 它考虑了原始音频信号中可用的所有信息,包括相位。尽管在过去的几十年中,端到端音乐源分离被认为几乎无法实现,但我们的结果证实,基于波形的模型与基于基于视图的深度学习模型的表现相似(如果不是更好)。即:我们提出的基于Wavenet的模型和Wave-U-Net可以胜过最近基于谱图的深度学习模型DeepConverSe。https://github.com/francesclluis/source-separation-wavenet

 

之前测试过科大讯飞的视频语音识别效果很差,如果利用这个方法先进行音乐源分离再送到科大讯飞的语音识别,说不定效果会更好?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值