【AEC回声消除论文(2)】U-convolution Based Residual Echo Suppression With Multiple Encoders

U-convolution Based Residual Echo Suppression With Multiple Encoders

基于U-convolution的多编码器残余回声抑制

摘要

在本文中,我们提出了一种高效的端到端神经网络,可以使用U - convolution块来估计近端语音,利用各种信号来实现残余回声抑制(RES)。具体而言,该模型采用多个编码器和一个集成块来利用声学回声抵消系统中完整的信号信息,并应用u -卷积块来有效地分离近端语音。在涉及智能音频设备的场景中,与baseline相比,所提出的网络提供了语音质量的感知评估(PESQ)和短时间客观可理解性(STOI)的改进。实验结果表明,该方法对各种类型的不匹配背景噪声和环境混响均优于基线,且计算量较低。

1. 介绍

最近,个人智能音响和电信系统的使用增加,需要开发改进的声学回声消除(AEC)或声学回声抑制(AES)算法,以消除扬声器和近端麦克风之间的声学耦合引起的声学回声。虽然已经提出了基于线性自适应滤波器的算法[1],但仅通过线性滤波方法无法完全消除声学回声;这是由于功率放大器的非线性响应和非线性声传递函数的不对中等因素造成的非线性回声。为了抑制这种非线性回声,提出了在线性自适应滤波后进行残余回声抑制(residual echo suppression, RES)[2-7]。

基于深度学习模型的RES算法可以处理复杂的非线性关系,表现出了很好的性能[4-7]。在[4]中,作者使用深度神经网络(DNN)估计RES的增益。一些研究[5,7]将RES视为声源分离问题,将AEC系统中的各种信号与近端语音分离。在[5]中,作者使用双向长期记忆(BLSTM)来建模上下文依赖,使用从混合信号和近端语音中提取的特征来预测掩码,然后使用它们重建近端语音信号。在[6]中,一个CRN被训练成频谱映射,用于估计语音的频谱图。

近年来,具有自适应前端的时域分离系统在声源分离任务[8]中得到了广泛的应用。自适应前端方法(例如convtasnet[8])使用卷积层来提取潜在的表示,可以与掩码估计网络一起学习。在[7]中,与之前的res基线相比,改进的基于convtasnet的端到端神经网络显示了很好的结果。然而,该系统使用有限的信号作为网络的输入。在现有的端到端神经网络文献中,缺乏针对AEC系统中各种信号的研究。

为了解决这个问题,我们提出了一种高效的res端到端神经网络。具体来说,我们使用多个编码器和深度可分离卷积(depthwise separable convolution,DWS)[9]和U - Convolution block (U-Convblock)[10]。本研究的新颖之处在于使用了多个编码器和一个有效的集成块,利用DWS卷积将AEC的输出和回声信号以及麦克风和参考信号,在更深层的空间中合并在一起。
此外,我们还应用了U - Convblock,这是有效估计res掩码的核心组件。我们从短时间客观可理解性(STOI)[11]、语音质量感知评估(PESQ)[12]和所需的计算资源方面评估提出的方法。实验结果表明,在各种不匹配噪声和混响的情况下,所提出的方法在使用有限计算资源的情况下,获得比基线更高性能。

2. 问题描述

x ( t ) x(t) x(t)表示远端信号, s ( t ) s(t) s(t) n ( t ) n(t) n(t)分别表示近端语音和背景噪声,时间为t。AEC输出信号 e ( t ) e(t) e(t)和麦克风信号 y ( t ) y(t) y(t)表示如下:
在这里插入图片描述
其中 d ( t ) d(t) d(t)为回声信号, d ( t ) d(t) d(t)为线性AEC系统产生的线性回声估计。具体来说,我们将回声消除定义为通过智能扬声器播放音乐时消除回声的问题。在这种情况下,远端语音 x ( t ) x(t) x(t)和近端语音 s ( t ) s(t) s(t)分别代表用户的音乐和语音。回声场景示意图如图1所示。
在这里插入图片描述

3.方法

该模型由多个编码器、集成块、掩码估计网络和解码器组成。编码器对多个声源(这里的多个声源应该指的是近端语音,噪声,以及回声)进行一维卷积以获得相应的潜在表示。
然后通过将集成块应用于有关声源信号的模型信息来合并这些表示。掩码估计网络计算近端语音掩码,将其乘以其中一个声源表示,以获得近端语音的潜在表示估计。

解码器通过反卷积将近端语音的估计潜在表示重建为波形s(t)(近端语音)。所提出模型的示意图如图2所示。
在这里插入图片描述

对于训练目标,我们使用时域对数均方误差[13],代替通常用于声源分离的Si-SDR损失函数:
在这里插入图片描述

3.1. 多个一维卷积编码器

最近的研究[14]表明,使用多个信号作为输入的方法可以更有效地估计近端语音掩码,从而提高RES性能。在本研究中,我们引入了多个编码器,利用多个源信号进行回声抑制,包括:
回声估计 d ( t ) d(t) d(t);
AEC输出 e ( t ) e(t) e(t)
麦克风 y ( t ) y (t) y(t);
参考信号 x ( t ) x(t) x(t)
每个声源信号通过相应的一维卷积编码器独立地转换为潜在表示。(潜在表示和潜在表示这里是一个意思,我也不知道该怎么翻译 >_< )

3.2. 多重潜在表示的集成块

集成块被设计用于在深层空间中组合有关多个源的信息。我们利用DWS卷积有效地捕获几个潜在表示[9]之间的空间和输入方面的相关性。我们首先将编码器导出的潜在表示沿新的维度进行堆叠,然后使用通道进行DWS卷积,然后进行瓶颈层和层归一化,如图3(a)所示。对于所有块的层归一化,我们使用累积层归一化(cLN)来满足因果处理[8]。
在这里插入图片描述

3.3. 带有u -卷积块的掩码估计网络

U-Convblock最近在[10]中引入。在UConvblock中,可以使用下采样和上采样块以多个分辨率提取时间信息,如图3(b)所示。下采样(上采样)由Q个下采样(上采样)块组成,每个下采样(上采样)块在使用DWS卷积保持特征数量的同时,将时间分辨率减半(翻倍)。下采样流和上采样流之间存在跳跃连接,所有卷积层后面都有校正线性单元(ReLU)。最后,将估计的掩码与编码后的AEC输出表示进行逐元素相乘,然后采用反卷积来重建估计的近端语音。

4. 实验

4.1. 数据集

为了评估所提出的模型,我们使用带有Librispeech[15]和Musan数据库[16]的智能扬声器来模拟环境,如[7]。对于近端语音,分别使用Librispeech训练集、开发集和测试集从随机选择的说话者中生成72000个持续5秒的话语的训练集、720个持续5秒的话语的验证集和360个持续5秒的话语的测试集。对于参考(回放)信号,我们首先将所有音乐数据集随机分为7个训练样本,2个验证样本和1个测试样本,然后根据Musan数据集上的验证和测试集开始训练。

我们对具有各种噪声类型、近端信噪比(SNRs)和近端信回声比(SERs)的模拟数据进行了实验。噪声从NOISEX92数据库[17]中的White和Babble噪声中随机采样,近端扬声器与噪声的相对信噪比相对于近端扬声器随机采样[10,20]dB,用于模拟使用智能扬声器的环境。总共准备了72000对(100小时)近端和参考音乐信号的话语作为训练数据。所有的声音都在16kHz采样。

为了模拟功率放大器和扬声器产生的非线性,我们采用了剪切函数[7,18]和无记忆的sigmoidal函数[7,19]。硬剪切函数[18]定义为:

在这里插入图片描述

其中 x m a x x_{max} xmax被设置为 x ( t ) x(t) x(t)最大的80%。为了对扬声器的非线性特性进行建模,使用了无记忆Sigmoid函数:
在这里插入图片描述
其中:
在这里插入图片描述
如果 b ( t ) > 0 b(t) > 0 b(t)>0,则Sigmoid增益参数 γ γ γ设为2,Sigmoid斜率设为a = 4;否则,它被设置为a = 0.5。

为了研究房间脉冲响应(RIR)的泛化性,我们使用100个随机选择的房间(长度宽度在[3, 8]m内)扩展非线性后的回声路径;高度固定在3m,混响时间T60 = 200ms。
以智能音箱场景为例**,扬声器放置在固定位置,距离麦克风20cm。此外,每个房间随机放置2个智能音箱,每个随机放置的智能音箱包含5个近端音箱。**这样,总共创建了1000个RIR对,其中800个用于训练,100个用于验证,100个用于测试。使用镜像声源方法[20]和gpuRIR工具箱[21]模拟房间脉冲响应(RIR)滤波器。

4.2. 实验配置

所有模型都接受了120个epoch的训练。学习率设置为1e−3。如果在连续20个epoch之后验证损失没有改善,则应用提前停止。Adam[23]用作优化器。
对于线性AEC系统,采用[22]中提出的多延时块频算法,在SpeexDSP[24]中实现。对于编码器和解码器卷积,我们使用21和512个滤波器长度。对于每个UConvblock配置,U-Convblock B和Q的数量分别设置为8和5。其他参数与[10]中的参数相同。我们实现了所有的基线,即DNN [4], BLSTM[5]和基于Convtasnet[7]的RES模型(Tasnet-MI),在相同的条件下训练。
提出的多编码器U-Convblock表示为UCME。
e ( t ) e(t) e(t) d ^ ( t ) \hat d(t) d^(t) y ( t ) y(t) y(t)的多重输入记为UCME-3M;
e ( t ) e(t) e(t) d ^ ( t ) \hat d(t) d^(t) x ( t ) x(t) x(t)的多重输入记为UCME-3R;
e ( t ) e(t) e(t) d ^ ( t ) \hat d(t) d^(t) x ( t ) x(t) x(t) y ( t ) y(t) y(t)的多重输入记为UCME-4。

4.3. 评价

为了评估语音质量和可理解性,我们比较了PESQ和STOI分数。作为计算复杂度的度量,使用了实时因子(RTF)、执行的千兆浮点运算(GFLOPs)的数量和模型大小。所有实验均使用英特尔Xeon E5-2695 v3 @ 2.30 GHz CPU进行分析。

4.4. 实验结果

为了检验所提方法的优点,我们进行了三个实验:
(I)确定合适的多个输入组合的实验,(II)在嘈杂环境中比较语音质量/可理解性的实验,以及(III)相对于基线的计算复杂度的比较

4.4.1. 多输入条件的比较

我们首先研究了多个输入的适当组合对所提模型性能的影响。
在这里插入图片描述

表1结果显示:
UCME-3R( e ( t ) e(t) e(t) d ^ ( t ) \hat d(t) d^(t) x ( t ) x(t) x(t)的多重输入)在PESQ和STOI得分上均优于UCME-3M( e ( t ) e(t) e(t) d ^ ( t ) \hat d(t) d^(t) y ( t ) y(t) y(t)的多重输入);
此外,UCME-4( e ( t ) e(t) e(t) d ^ ( t ) \hat d(t) d^(t) x ( t ) x(t) x(t) y ( t ) y(t) y(t)的多重输入)的性能略优于UCME-3R( e ( t ) e(t) e(t) d ^ ( t ) \hat d(t) d^(t) x ( t ) x(t) x(t)的多重输入)
这表明包括麦克风和参考信号在内的所有信号都能有效提高RES的性能。

4.4.2. 在各种噪声和回声路径情况下的性能比较

随后,我们检验了所提出的模型在涉及噪声和混响的环境中的鲁棒性。采用DNN、BLSTM、Convtasnet等RES的AEC系统在-20、-15、-10 SER、10 dB信噪比水平下的平均PESQ和STOI得分如表2所示。
在这里插入图片描述

我们观察到,提出的UCME-4 RES模型在平均PESQ和STOI得分方面产生了最好的结果。对于所提出的模型,在所有条件下的平均PESQ和STOI得分分别为3.1和0.91,而之前的最佳RES模型分别为2.86和0.87。

4.4.3. 计算复杂度比较

在这里插入图片描述

在表3中,我们进一步研究了Tasnet-MI和所提模型的RTF、gflop和模型大小。该模型的浮点运算和模型大小都不到基线的一半。该模型的RTF值为0.53,具有较好的实时性。我们得出结论,所提出的模型不仅具有具有竞争力的PESQ和STOI性能,而且在计算复杂度方面也具有竞争力。

5. 结论

在本文中,我们提出了一种新的端到端神经网络,该网络使用多个编码器来适当地整合潜在空间中各种信号之间的信息,同时使用高效的U-Convblock作为掩码估计网络。所提出的系统在有噪声和混响的环境中优于基线,同时需要相对较低的计算资源。在未来的研究中,我们计划将这种方法扩展到智能音频设备上实际录音的AES场景。

参考文献请查阅原文(略)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值