【AEC回声消除论文(1)】Deep RES With A Tunable Tradeoff Between Signal Distortion And Echo Suppression

Deep Residual Echo Suppression With A Tunable Tradeoff Between Signal Distortion And Echo Suppression(深度残余回声抑制与信号失真和回声抑制之间的可调权衡)

摘要

在本文中,我们提出了一种使用UNet神经网络的残差回声消除方法,该方法在频谱域中直接将线性声学回声消除器的输出映射到所需的信号。
该系统嵌入了一个设计参数,允许在双通话场景下在所期望的信号失真和残差回声抑制之间进行可调的权衡。使用了13.6万个参数,每秒需要1.6千兆浮点运算和10兆字节的内存。满足AEC挑战的时序要求,以及设备上应用程序的计算和内存限制。使用来自AEC challenge数据库和真实独立记录的161小时数据进行实验。演示了所提出的系统在现实条件下的性能,并用两种方法进行了比较,包括回声抑制和期望信号失真,对各种环境的泛化,以及对高回声水平的鲁棒性。

1. 介绍

现实生活中的通信场景包括位于近端和远端两个说话者之间的对话。
近端包括一个麦克风,捕捉近端信号播放远端信号的扬声器产生的回声以及背景噪声[1]
回声的存在会导致对话的清晰度和质量下降,因为远端说话者在说话时可以听到自己的声音,导致近端说话者则可能被屏蔽。传统的声学回声消除器(AEC)没有模拟回声路径中的非线性成分,在收敛和再收敛过程中,通常会引入真实回声信号和估计出的回声路径之间的不匹配[2]。这就要求必须用专用系统来抑制的残余回声(从这里看,本文中的残余回声应该指的是回声路径中所产生的非线性成分)。

深度学习在AEC研究中占据了重要地位,与传统方法[3]、[4]相比,深度学习表现出了更好性能。最近的一项研究利用LSTM网络联合实现回声抵消,并抑制噪声和混响[5]。Lee等[6]在线性声学回声抑制器(AES)后级联了一个全连接神经网络(FCNN),并评估了近端和AES输出信号的频谱振幅之间的客观增益。Lei等人[7]利用过去和未来的时间上下文来映射麦克风,并通过FCNN将远端信号引用到所需的扬声器。最近,在[8]和[9]中联合使用了深度学习和经典方法,后者激活卷积循环网络来评估近端信号频谱图的实部和虚部。

在这项研究中,我们介绍了一种带有双通道输入和单通道输出的UNet神经网络的残余回声抑制(RES)方法,该方法直接将线性AEC的输出在短时间傅里叶变换(STFT)域中映射到所期望的近端信号。通过在UNet[10]的每个卷积层中利用深度可分离卷积,该系统包括13.6万个参数,每秒消耗1.6 Giga浮点运算(flops)和10兆字节(MB)的内存,这使得它适合于设备上集成。此外,该系统满足AEC挑战[11]的时序标准,以及更普遍的免提通信系统[12]的约束。

尽管竞争方案[3]-[9]、[13]、[14]已经显示出良好的效果,但在真实声环境中的性能仍然具有挑战性。此外,RES的级别和所需信号失真之间的可调权衡可能有利于在其特定权衡需求中有所不同的应用程序。但是,现有方法均没有这种特性。我们通过以下方式弥补这些缺点。首先,我们使用从AEC挑战数据库[11]和真实条件下的独立录音中获得的超过160小时的数据进行实验。其次,在训练过程中最小化UNet目标函数中嵌入了控制回声消除和信号失真之间动态平衡的设计参数。

将所提系统的性能与现有的两种基于深度学习的方法进行了比较:Zhang和Wang[13],其中利用bi-LSTM结构为AEC和RES建模理想比例掩模,Carbajal等人[14]引入了多输入FCNN RES系统,输入线性AEC输出和参考远端信号来估计相敏掩模。实验结果表明,所提出的方法在各种真实的声学设置中具有最先进的性能。特别是,在各种环境、设备、扬声器和移动回声路径中都表现出了高泛化。在**极低信号回声(SERs)**的极端条件下也实现了高鲁棒性,并证明了可调设计参数的效果。

本文的线索整理如下。第2节阐述问题。第3节介绍所提出的系统。第4节介绍实验设置。第5节报告性能。第6节总结。

  1. 问题公式化
    r [ n ] r [n] r[n]表示离散时域 ∀ n ∈ Z ∀n∈Z nZ内的参考远端信号,设 d [ n ] d[n] d[n]表示期望的近端信号。(近端)麦克风信号 m [ n ] m[n] m[n]由下面式子给出:
    在这里插入图片描述
    其中 f [ n ] f [n] f[n] r [ n ] r[n] r[n]的混响非线性修正, w [ n ] w[n] w[n]表示环境和固有系统噪声。

在应用RES之前,采用线性AEC来减小线性回声。
AEC接收 m [ n ] m[n] m[n]作为输入, r [ n ] r[n] r[n]作为参考,并产生两个输出信号: a [ n ] a [n] a[n],一个自适应滤波过程的结果,试图建模 f [ n ] f [n] f[n],误差信号 e [ n ] e [n] e[n]由下式给出:
在这里插入图片描述
由(1)和(2)可知
在这里插入图片描述
e [ n ] e [n] e[n]包含三个分量的加性组合:期望信号 d [ n ] d [n] d[n]、噪声 w [ n ] w [n] w[n],和剩余回声 z [ n ] z [n] z[n],其由下式给出:
在这里插入图片描述
目标是抑制剩余回声 z [ n ] z [n] z[n],而不失真所需信号 d [ n ] d [n] d[n]
图1所示为回声抵消系统的方案。
在这里插入图片描述

3.所提出的系统

该RES系统由两个输入通道和一个输出通道的UNet神经网络组成。该网络以线性AEC输出的STFT幅值为输入,旨在恢复所需近端信号的STFT幅值。联合网络的压缩路径和扩张路径分别由5个卷积单元构成每个单元包含2个连接且相同的层,其中每一层由二维卷积、二维批处理归一化和ReLU激活组成。在这里,卷积的实现分为两部分;深度卷积层,内核为3 × 3,填充为1,然后是可分离卷积层(separable convolution layer),以减少计算量。在压缩过程中,卷积单元之后是一个最大池化层,在扩张过程中,卷积单元之前是一个上采样层,两者缩放因子都是2。跳跃连接应用于匹配的压缩和扩张卷积单元对之间。

为了利用UNet[10]强大的图像分割能力,它的通道被输入300毫秒的长时间上下文,生成频谱图图像。在编码过程中,短滤波器联合捕获时频局部连接,并产生大量区分残余回声的特征。在解码过程中,类似的卷积机制删除这些回声特征,同时保留所需的信号。跳跃连接允许在预测中恢复局部细节,因为相同维度的特征从早期层中重新被使用,梯度流直接通过跳跃连接增强优化,并且特征直接从编码器传递到解码器,以恢复在下降采样期间丢失的空间信息。

可调设计参数 α ≥ 0 α≥0 α0嵌入自定义损失函数 J ( α ) J(α) J(α),其在训练期间被最小化:
在这里插入图片描述
其中P和D分别表示归一化后的小批量预测和期望频谱振幅,如4.2节所述。 l 2 2 l_{2}^{2} l22 σ 2 σ^2 σ2表示均方L2范数和方差算符。
当α>为0时, I α > 0 I_{α>0} Iα>0等于1,否则为0。在训练阶段,J(α)被最小化,而α惩罚 l 2 2 ( P ) l_{2}^{2}(P) l22(P),这允许在系统的RES水平和期望信号失真之间进行动态权衡。
当α = 0时,预测与近端信号之间的误差最小。但是,当α > 0时,产生的预测值(P,期望的频谱振幅)较小。这降低了残留回声的水平,但妥协了期望信号失真的水平。
σ 2 ( P ) σ^2 (P) σ2(P)缓和了α ≠ 0时可能发生的子带失效。α的实际用法是一个可调的用户参数,用于根据特定的用户偏好调整系统的性能。

在UNet之前的线性AEC系统是由凤凰音频技术公司制造的,并基于滤波器组运行。它使用150毫秒的滤波器长度,1秒后收敛,消耗200 Kflops。总体而言,由AEC和RES组成的联合系统包含13.6万个参数,消耗1.6 gflop和10mb内存。该系统满足标准英特尔酷睿i7-8700K CPU @ 3.7 GHz上免提通信[11],[12]的时间限制。因此,设备上的系统集成是可用的,例如,在德州仪器[15]的AM5749TM处理器上。

4. 实验设置

4.1. 数据库获取

由麦克风捕获的SER和信噪比(SNR)级别计算为:
在这里插入图片描述
在这里插入图片描述

这两种测量方法都是使用50%重叠的20毫秒时间帧获得的。本研究采用两个数据语料库:用于训练的AEC挑战数据库[11],以及用于训练和测试的独立记录数据库。

AEC挑战数据库包含两个新的合成和真实录音的开放源代码。合成数据捕捉了100小时干净和嘈杂的单说话和双说话的时间片段。真实的数据是50个小时的音频剪辑,来自2500个真实的声学环境、音频设备和单和双说话场景下的话语,包括改变和不变的回声路径。SER水平均匀分布在-10 ~ 10 dB之间,信噪比随机采样在0 ~ 40 dB之间。

此外,在现实生活条件下进行了独立的记录,以测试系统对陌生情况下的泛化性以及其对低水平SERs的鲁棒性。近端信号是通过BK的4227-ATM型口模拟器产生的,因此其记录包含固有和环境系统噪声。麦克风和扬声器由Spider MT503TM或Quattro MT301TM型扬声器封闭在5 cm范围内,或由罗技Z120TM型扬声器对外播放回声。嘴巴模拟器被放置在距离麦克风1米、1.5米或2米的三个位置,仅在录音之间移动。在录音过程中,通过将外部扬声器移动到距离麦克风1米、1.5米或2米的地方,产生3个源-接收器位置,从而产生回声路径中的过渡。用于实验的数据在来自TIMIT[16]的5.5小时和来自LibriSpeech[17]语料库的5.5小时之间均匀混合。在3 × 3 × 2.5 m到更大的5 × 5 × 4 m之间的4个不同的房间中进行录音。混响时间,即RT60,在0.3 - 0.6 s之间变化。对于双说话的话语,随机选择近端和远端扬声器,零填充到相同的长度,并在-10和-20 dB之间添加不同的SER级别。近端信号与远端信号的平均重叠量为90%。远端单话语、近端单话语和双话语的数量是相同的。男性和女性演讲者平等参与,双重演讲时段包含两个不同的演讲者,训练和测试集不共享相同的演讲者,每个演讲者都是远端和近端演讲者。总的来说,生成了11小时的数据,并在训练集和测试集之间平均分配,因此在声学环境、设备和扬声器方面,两者都包含不连贯和平衡的设置。信噪比为32±5 dB,采样频率为16 KHz。

4.2. 数据处理、训练和测试

麦克风和参考信号以20毫秒的50%重叠时间帧进行处理。首先,将这些帧插入到线性AEC中。然后,通过取320点STFT的振幅,两个输出帧中的每一个都由161个频率块表示。
在训练中,该频谱数据通常在0到1之间进行归一化,即对于1到161之间的每一个频率bin,对应的帧样本向量减去其最小值,并除以其动态范围。这些训练统计数据被重新应用于测试数据。接下来,在UNet的两个输入通道和单个输出通道中插入30帧不重叠的批次,对应于300ms。

训练优化通过最小化eq.(5)中的损失函数来完成,学习率为0.0005,batch size为4,使用Adam优化器[18]进行20个epoch。训练持续时间为每10小时训练数据,训练1.5小时。使用英特尔酷睿i7-8700K CPU @ 3.7 GHz,两个Nvidia GeForce RTX 2080 Ti的gpu。
在测试过程中,将30帧的标准化批量插入到UNet,步长为1帧。在生成振幅谱预测后,每个频率库使用训练统计量进行上述逆归一化过程。用[19]重叠法对误差信号相位进行逆STFT。RES可以引入一个人工增益,并进行补偿,如[14]所示。

4.3. 性能的测量

为了评估性能,我们使用回声损失增强(ERLE)[20]来测量只有远端信号存在时噪声信号和增强信号之间的回声减少,以及信号与伪影比(SAR) 来测量近端单会话周期[21]的失真。对于双话周期,我们使用信号失真比(SDR) [21]

为了评估性能,我们使用回声损失增强(ERLE)[20]来测量只有远端信号存在时噪声信号和增强信号之间的回声减少,以及信号与伪影比(SAR)来测量近端单会话周期[21]的失真。对于双话周期,我们使用信号失真比(SDR)[21],它考虑了回声抑制和语音伪影,以及语音质量的感知评估(PESQ)[22]。性能度量定义在表1中。除了在整个话语中计算PESQ外,这些测量是用20毫秒的50%重叠帧计算的。
在这里插入图片描述

5. 实验结果

我们比较了所提出的系统与[13]中两种相互竞争的基于深度学习的RES方法的性能,参考其报道的“AES+BLSTM”系统,以及[14]。所有RES模型均采用本研究中讨论的同一线性AEC的输出。在所有实验中,除非另有说明,线性AEC已经收敛,α = 0。每个模型都使用整个AEC挑战数据和独立记录的训练数据进行训练,这些训练数据累计超过155小时。性能测量通过独立记录的测试集整个5.5小时的平均值和标准偏差(std)值报告,详见第4.1节。

不改变回声路径的结果见表2,改变回声路径的结果见表3。我们的方法在所有的测量中都优于竞争对手,同时也达到了最低的标准。此外,我们的方法受回声路径变化的影响最小,而[13]和[14]中的模型在这种情况下都恶化了。因此,所提出的系统对未见的真实环境、设备和扬声器具有领先的泛化能力,并对SER在-10和-20 dB之间的极低水平具有领先的鲁棒性。

在这里插入图片描述
在这里插入图片描述

在下面,我们研究了线性AEC收敛前和重新收敛期间的性能,在改变回声路径的情况下。如表4所示,当线性AEC未收敛时,性能整体受到影响。然而,我们的方法仍然表现出领先的性能,指出了竞争方法对收敛回声近似的高灵敏度,而UNet甚至对退化测量的残余回声进行了建模。

在这里插入图片描述

接下来,我们演示了α对RES和期望信号失真水平之间权衡的影响。同样,只考虑未更改的回声路径。结果如表5所示。可以观察到,增加α导致增强的RES,但以期望信号失真为代价,分别由ERLE和SAR测量所表明。然而,PESQ、SDR和SAR测量表明,对于给定的α值,UNet不会严重降低所需信号的质量。

在这里插入图片描述

6. 结论

我们介绍了一种基于UNet神经网络的RES方法,该方法在STFT域中接收线性AEC的输出。通过在UNet层中使用深度可分离卷积,我们的系统由13.6万个参数组成,需要1.6 Gflops和10 MB内存,这使得它足以用于设备上的应用程序。该系统满足标准CPU上的免提通信定时限制。此外,我们利用内置设计参数在系统中集成了回声抑制和信号失真之间的可调权衡。实验使用了150小时的AEC挑战合成和真实录音,以及11小时的真实独立录音。结果显示,在现实生活条件下,与其他方法相比,该方法在回声抑制和期望信号失真方面表现出了最先进的性能,对各种设置的高度泛化,以及对极低水平SERs的鲁棒性。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值