题目:
[arXiv:2110.00745v3]
Motivation
目前最近的声学回波消除(AEC)系统依赖于一个单独的自适应滤波模块用于线性回波抑制和一个神经模块用于残余回波抑制。然而,在实践中,自适应滤波模块需要时间来收敛,容易受到环境变化的影响。这给使用这种两阶段框架的AEC系统带来了不必要的延迟,本文利用了时频掩模的偏移补偿特性,提出了一种端到端复数域神经网络结构。
Method
A cD3Net
该模型是对D3Net进行了改进,通过使用伪复数技术将其扩展到复值域。虽然池化操作在cnn中捕获不同尺度的特征很有用,但D3Net的多扩张特性已经能够捕获这些不需要依赖于尺度的特性,但是容易导致较差的输出分辨率。因此,所提出的模型以顺序的方式设计,以确保对实时实现的适应性,而不需要池化来保持特征分辨率。用leakyReLU替换了原始模型中的ReLU激活,以确保输出掩模可以从整个复杂空间中获取任何值。
其中,HR、HI是相同功能的独立层。
B Input Representation
采用复值时频域近端麦克风信号P和远端环回信号Q作为输入信号。
C mask
考虑使用两个单独的掩模,A,B∈CT×F,其中B主要负责回声抑制,A主要负责噪声抑制和语音增强。双mask操作是由
D loss
为了平衡基于能量的意义上的回声和噪声消除和感知意义上的语音增强,考虑在负信号失真比损失和感知PMSQE损失之间使用加权损失函数,如下:
其中α,β是权重项,和为1。其中:
实验步骤
本文中的所有模型都只使用微软AEC挑战的合成数据集进行训练。合成数据集为每个声学场景提供四个信号:干净的近端语音信号、潜在噪声的远端环回信号、潜在的噪声回波信号和潜在噪声的近端麦克风信号。
使用近端麦克风和前端环回信号作为输入。干净近端语音信号作为训练目标。
train-set:9K个声学场景
test-set:500个声学场景
validation set:500个声学场景
实验结果
报告了每个模型的两组结果:一组关于用于开发的合成数据集的测试分割,另一组关于2021AEC挑战盲测试集。盲测集包括800个真实世界的记录,
对于盲测真实测试集,本文报告了近端单话场景的MOS(NE),远端单话场景的EchoDMOS(FE),以及双话场景的Echo(DT-E)和其他DMOS(DT-O)。
1)在综合测试集和真实测试集中,任何配置的cD3Net模型在大多数指标上都始终优于三个基线模型,尽管只有最小基线模型的大约十分之一的参数。这证明了cD3Net体系结构以一种非常高效的参数的方式学习有用的中间特性的能力。
2)cD3Net双掩模的双掩模方法在合成测试集结果上有轻微的改进。本文指出这在设计上是意料之中的,因为单任务技术不太可能在双谈话场景中同时处理回波,噪声抑制和语音增强。
3)发现使用负SDR和PMSQE的加权复合损失可以进行更好的权衡,使用1:3和1:1的SDR-to-PMSQE权重可以来改善STOI和PESQ。
4)在环回信号上以时移和振幅缩放的形式进行数据增强,效果会有提升。
总结
提出了cD3net,一种端到端无池化网络,用于联合回波消除、噪声抑制和语音增强,使用D3net的复值扩展,参数量很小,只有354K。复值扩展消除了额外的线性滤波或预处理模块的需要,允许使用大型receptive fifields而不需要池化进行特征提取,在整个网络中保持完整的特征分辨率。为了充分利用前端环回信号信息,引入了一种利用双掩模的时频域增强技术,用于联合AEC、DNS和语音增强。使用尺度依赖的SDR和PMSQE的混合loss来训练,对合成和真实测试集的评估都显示了良好的结果。
2022.3.25