新算法实现混响环境中多说话人语音分离

在复杂声学环境中实现多说话人分离是音频信号处理领域的一项重大挑战,尤其是在存在强混响和背景噪声的低信噪比条件下。澳大利亚国立大学与莫拉图瓦大学的研究团队提出了一种基于相对传递矩阵(ReTM)的创新方法,实现了多说话人在混响房间中的有效分离。该方法通过利用多通道麦克风的空间信息,克服了传统方法对声源位置信息或大量训练数据的依赖,为实际场景中的语音增强提供了新思路。

研究团队首先构建了一个包含多说话人、背景噪声及混响的系统模型。假设房间中存在

图片

个语音源和

图片

个噪声源,Q个麦克风被划分为两组(A组和B组),其接收信号可表示为传递函数矩阵与声源信号的线性组合。核心理论突破在于定义了ReTM——通过两组麦克风传递函数矩阵的伪逆运算建立空间关系矩阵

该矩阵仅依赖房间的声学特性与声源空间分布,与具体声源信号无关,这为盲分离提供了理论基础。

在分离算法实现中,研究人员提出通过对干扰源信号段的协方差矩阵分析估计目标说话人对应的ReTM。当目标说话人静默时,利用此时段信号计算干扰源的ReTM,进而从混合信号中消除干扰成分。

公式推导表明,分离后的目标语音信号虽存在由房间传递函数差异引起的线性失真,但能有效去除其他声源干扰。实验验证显示,残余噪声对语音质量影响较小,尤其在麦克风数量超过总声源数时,分离效果显著提升。

仿真实验在6×7×3米的虚拟房间中进行,包含4个语音源、3个噪声源和27个随机分布的麦克风。通过调整A组麦克风数量(5/7/10个)发现,当A组为7个、B组固定17个时,以第一个说话人为例,其短时客观可懂度(STOI)从处理前的37.35%提升至92.16%,信干比(SIR)从1.40dB跃升至25.37dB,信畸比(SDR)达到9.49dB。

 

(a) STOI,(b) SIR 和 (c) SDR 性能随信噪比变化的曲线,针对四位说话人。虚线表示输入信号,实线表示相应目标说话人的输出测量值。 

即使在-20dB极低信噪比条件下,该方法仍能保持稳定的分离性能,证明其对噪声环境的强鲁棒性。频谱图对比显示,分离后的语音时频结构明显优于原始混合信号,背景噪声成分显著抑制。

在实际办公室环境(2.94×4.4×3.04米,混响时间410ms)的验证中,使用15个麦克风(A组5个,B组10个)对2个说话人与2个噪声源进行分离。虽然分离质量略低于仿真环境,但通过听音频文件的主观听觉评估表明目标语音清晰可辨,干扰泄漏控制在可接受范围。研究团队指出,未来结合维纳滤波技术有望进一步提升实际场景的分离效果。

 

在混响房间中进行实际测量的实验设置,两名说话人坐在桌子周围,房间内分布有 15 个麦克风。 

相较于传统方法,该研究的创新性体现在三个方面:其一,ReTM机制无需声源位置信息或麦克风相对几何信息,突破了传统波束形成技术的局限;其二,仅需60秒干扰源时段的训练数据,大幅降低了对数据量的需求;其三,算法计算复杂度与麦克风通道数呈线性关系,而深度学习等方法通常随通道数指数增长。这些特点使其在会议室、智能家居等实际应用场景中展现出优势,为复杂声学环境下的语音增强开辟了新途径。

更多信息:Manamperi, W. N., & Abhayapala, T. D. (2025). Multiple Speaker Separation from Noisy Sources in Reverberant Rooms using Relative Transfer Matrix. arXiv preprint arXiv:2503.09412.

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值