201912--时域音频分离和识别的端到端培训

【2】 Ene-to-end training of time domain audio separation and recognition
标题:时域音频分离和识别的端到端培训
作者: Thilo von Neumann, Reinhold Haeb-Umbach
备注:5 pages, 1 figure, to appear in ICASSP 2020
链接:https://arxiv.org/abs/1912.08462

对单通道多说话人语音分离的兴趣日益高涨,促使了多说话人语音识别的端到端(E2E)方法的发展。然而,到目前为止,基于人工神经网络的时域信号源分离技术还未与E2E语音识别技术相结合。在这里,我们演示了如何将基于卷积时域音频分离网络(CONV TASNET)的分离模块与E2E语音识别器相结合,以及如何通过将其分布在多个GPU上或通过近似截断的卷积前端的反向传播来联合训练这样的模型。为了使这项工作透视并说明设计空间的复杂性,我们提供了单通道多说话人识别系统的紧凑概述。实验结果表明,在WSJ0-2mix上,我们的联合时域模型的误字率为11.0%,比目前提出的级联DNN-HMM和单片E2E频域系统有较大的改进。

自动语音识别(ASR)是实现电话、会议等各种语音自动分析的关键技术。对于相对干净的语音场景,例如电话语音或有声读物的录音,近年来ASR技术有了很大的改进[1]。在许多情况下,更现实的场景,如自发演讲或与多个参与者的会议,需要ASR系统同时识别多个发言者的演讲。例如,在会议场景中,重叠率在5%到10%之间,在非正式聚会中很容易超过20%。因此,人们对源分离系统和多扬声器ASR越来越感兴趣。特别关注单信道记录的处理,因为这不仅在只有单信道可用的场景(例如电话会议记录)中很重要,而且对于传统多信道处理方法(例如波束成形)的多信道记录也很重要,不能很好地分离扬声器,以防它们在空间上过于接近。在过去的几年中,单通道源分离的话题被广泛的研究,试图用诸如深度聚类(DPCL)[3]、置换不变训练(PIT)[4]和TasNet[5,6]等技术来解决鸡尾酒会问题。在DPCL中,训练一个神经网络将每个时频箱映射到一个嵌入向量,使同一个说话人的嵌入向量在嵌入空间中形成一个簇。这些簇可以通过聚类算法找到,并用于构造频域分离的掩模。同时,还发展了PIT,它训练一个简单的多输出神经网络,用置换不变训练准则估计每个说话人的一个掩码。计算每个可能的训练目标分配到混合估计的重建损失,然后使用最小化损失的排列进行训练。DPCL和PIT在时频域均表现出良好的分离性能。采用置换不变训练方案,用一个可学习的时域音频分离网络(TasNet)代替常用的短时傅立叶变换(STFT),直接对原始波形进行处理,实现了时域信号的分离。TasNet的信噪比(SDR)增益超过15db,甚至在频域上优于oracle掩蔽。基于这些源分离技术,构建了多扬声器ASR系统。DPCL和PIT已被用作一个最先进的单扬声器ASR系统的频域源分离前端,并扩展到联合训练的E2E或混合系统[7、8、9、10]。结果表明,联合(再)训练可以改善这些模型在简单级联系统中的性能。文献[11]研究了TasNet作为ASR时域前端的有效性,表明在源分离和ASR结果方面都优于频域处理。然而,TasNet还没有与ASR系统联合优化,可能是由于处理高内存消耗的复杂性或TasNet方法的新颖性。

本文将最先进的前端ConvTasNet[4]与E2E-CTC/attention[12,13,14]ASR系统相结合,构成一个直接基于原始波形特征工作的E2E多扬声器ASR系统。我们试图回答以下问题:像Conv-TasNet这样的时域源分离系统是否有可能与E2E-ASR系统联合训练,以及联合微调是否可以提高性能。在[11]的研究基础上,我们对预先训练的前端和后端模型进行了联合训练,并通过对WSJ0-2mix数据库的评估表明,与其他E2E方法相比,独立训练的Conv-TasNet和ASR系统的简单组合已经提供了有竞争力的性能,而E2E系统风格的两个模块的联合微调可以进一步大幅度提高性能。我们通过在多个GPU上分发模型来实现联合训练,并且表明截断反向传播(15)通过卷积网络的时间的近似使得即使在单个GPU上也能通过显著减少存储器使用而同时提供良好性能来进行联合训练。最后,我们提供了一个紧凑的概述单通道多扬声器ASR系统的工作,并说明了设计空间的复杂性。

其他工作已经研究了作为ASR前端的频域源分离技术的有效性。DPCL和PIT已经被有效地用于这一目的,并且证明了联合再训练用于微调可以提高性能[7,8,10]。提出了一种用于单通道多扬声器ASR的E2E系统,该系统不再由单独的源分离和语音识别部分组成,而是将这些功能组合成一个大型的单片神经网络。他们扩展了基于CTC/注意的E2E ASR系统的编码器,以分离编码的语音特征,并让一个或多个注意解码器为每个扬声器生成输出序列[16,17]。这些模型显示出很好的性能,但它们还没有达到混合级联系统的水平。与级联系统相比,这些单片E2E模型的缺点包括它们不能使用并行和单扬声器数据,并且它们不允许对单个系统部件进行预训练。直接使用原始波形特征进行多扬声器ASR任务的影响仅在TasNet和单扬声器ASR系统的组合中进行了研究[11],但尚未进行联合训练。
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

6.结论
我们建议使用Conv-TasNet这样的时域源分离系统作为单扬声器E2E-ASR系统的前端,形成多扬声器E2E语音识别器。我们表明,独立培训前端和后端已经提供了一个具有竞争力的性能,联合微调可以大大提高性能。微调可以与分布在多个GPU上的整个模型联合执行,但也可以通过近似卷积神经网络的TPBTT在单个GPU上快速地扩展2倍,同时保持性能可比。结果表明,与微调前端相比,重新训练ASR部分可以更好地补偿前端和后端之间的不匹配。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值