MD23：一个优于UVR的免费开源声音分离项目

最新推荐文章于 2025-05-03 23:16:11 发布

普鲁夕格

最新推荐文章于 2025-05-03 23:16:11 发布

阅读量1.4k

点赞数 10

文章标签： python

本文链接：https://blog.csdn.net/weixin_44430591/article/details/138443380

版权

该整合包修改自GitHub - jarredou/MVSEP-MDX23-Colab_v2: Colab adaptation of MVSep Model for MDX23 music separation contest，修改部分代码使其本地运行

整合包地址：MDX23-v2-2.2-barbara.zip_免费高速下载|百度网盘-分享无限制 (baidu.com)

摘要

本文介绍了MD23，一个优于UVR的免费开源声音分离项目。该方案在mvsep.com的SDR Vocals评价中取得了惊人的10.2196分，截止整合包打包日成为开源模型中得分最高的方案。本文将对该方案的技术细节、评价结果以及其在实际测试中的表现进行详细描述，最后分享该整合包的使用教学。

1，介绍

声音分离是音频信号处理领域的重要研究方向，它涉及将混合的音频信号分解为单独的声音源。MD23作为一个新型声音分离项目，通过采用先进的分离算法，在SDR Vocals评价中获得了显著的高分，显示了其在声音分离领域的突破性成果。

升级了主要MDX23C 8K FFT模型，可以将音轨分离成人声和器乐部分。在MultiSong数据集和合成数据集上的SDR指标得到了提升。相应地，在Ensemble 4和Ensemble 8模型上，分离结果也得到了改善。请参见下表中的变化。

算法名称	MultiSong数据集人声SDR	MultiSong数据集器乐SDR	Synth数据集人声SDR	Synth数据集器乐SDR	MDX23 排行榜人声SDR
8K FFT，全频段（旧版本）	10.01	16.32	12.07	11.77	10.85
8K FFT，全频段（新版本）	10.17	16.48	12.35	12.06	11.04

添加了两个新模型，MVSep钢琴（演示版）和MVSep吉他（演示版）。这两个模型都基于MDX23C架构。这些模型可以将音乐高质量地分离成钢琴/吉他部分和其他部分。每个模型都有两个变体。在第一个变体中，神经网络模型直接应用于整个音轨。在第二个变体中，音轨首先分为人声和器乐两部分，然后神经网络模型只应用于器乐部分。在第二种情况下，分离质量通常会稍微更高。我们还准备了一个小型内部验证集，以比较模型在从主音轨中分离钢琴/吉他的分离质量上的表现。我们的模型与另外两个模型（Demucs4HT（6个声道）和GSEP）进行了比较。对于钢琴，我们有两个验证集。第一个集合包括电钢琴作为钢琴部分的一部分，第二个集合只包括原声钢琴。

注：所使用的度量标准是SDR（信号到失真比）：数值越大表示分离效果越好。