文章见:http://arxiv-ai.com/discuss?id=1810.12187
大多数目前成功的源分离技术使用幅度谱图作为输入,因此默认情况下省略信号的一部分:相位。为避免遗漏可能有用的信息,请研究使用端到端模型进行音乐源分离的可行性 - 它考虑了原始音频信号中可用的所有信息,包括相位。尽管在过去的几十年中,端到端音乐源分离被认为几乎无法实现,但我们的结果证实,基于波形的模型与基于基于视图的深度学习模型的表现相似(如果不是更好)。即:我们提出的基于Wavenet的模型和Wave-U-Net可以胜过最近基于谱图的深度学习模型DeepConverSe。https://github.com/francesclluis/source-separation-wavenet
之前测试过科大讯飞的视频语音识别效果很差,如果利用这个方法先进行音乐源分离再送到科大讯飞的语音识别,说不定效果会更好?