远距离文本相关的说话人验证数据库和基准
Abstract
本文介绍了一个名为HI-MIA的大型远场相关文本说话者验证数据库。 我们的目标是满足基于远场麦克风阵列的扬声器验证的数据要求,因为大多数公开可用的数据库都是单个通道近距离对话且与文本无关。 我们的数据库包含针对远场方案设计的房间中340人的记录。 通过位于不同方向和距离扬声器的多个麦克风阵列和一个高保真近距离麦克风来捕获录音。 此外,我们提出了一套基于端到端神经网络的基线系统,分别采用单通道和多通道数据进行训练。 结果表明,该融合系统在远场报名远场测试任务中可实现3.29%EER,在近距离报名和远场测试任务中可实现4.02%EER。
索引词:开源数据库,文本相关,多渠道,远距离,说话者验证
1. Introduction
说话者验证的目的是从数字音频信号电平验证与已注册目标说话者相关的说话者身份。通常,说话人验证过程包含说话人嵌入提取模块和验证模块。近年来提出了针对这两个模块的方法,并且扬声器验证的性能得到了显着提高。此外,包括数千名演讲者在内的许多开放和免费的语音数据库也可以公开获得。大多数数据库(例如AISHELL2 [1],Librispeech [2],Voxceleb1&2 [3] [4])都记录在无噪音的近距离环境中。但是,这种记录环境与现实世界中的智能家居或物联网应用中的远场场景不匹配。在嘈杂和混响条件下的说话人验证是具有挑战性的主题之一。演讲者验证系统的性能在远场条件下会显着下降,在这种情况下,语音是以未知的方向和距离(通常在1m-10m之间)记录的。在语音识别中也会出现此问题。尽管我们有用于将近距离通话语音转换为模拟远场语音的仿真工具包,但与真实录音相比,仍然存在明显的通道不匹配。此外,前端处理方法的目标在说话者验证和语音识别方面有所不同。因此,开发一个开放的,公开可用的远场多通道说话者验证数据库至关重要。
已经提出了考虑单通道麦克风或多通道麦克风阵列的各种方法来减少混响和环境噪声的影响。这些方法在与文本无关的自动说话者验证(ASV)的不同级别上解决了该问题。
系统。在信号级别,使用线性预测逆调制传递函数[5]和加权预测误差(WPE)[6,7]方法进行混响。针对复杂环境下的ASV系统,探索了基于深度神经网络(DNN)的用于单通道语音增强的降噪方法[8、9、10、11]和用于多通道语音增强的波束赋形方法[6、12、13]。在特征级别,基于子带Hilbert包络的特征[14、15、16],扭曲的最小方差无失真响应(MVDR)倒谱系数[17],功率归一化倒谱系数(