Human And Machine Speaker Recognition Based On Short Trivial Events
Miao Zhang1,2, Xiaofei Kang1,3, Yanqing Wang1,2, Lantian Li1, Zhiyuan Tang1, Haisheng Dai4, Dong Wang1∗
- Center for Speech and Language Technologies, Tsinghua University
- Beijing University of Posts and Telecommunications
- Peking University 4. JD AI Research
ABSTRACT
人类的言语常有我们称之为琐碎事件的事件,例如咳嗽、大笑和嗅闻。与常规语音相比,这些琐碎的事件通常是短而多变的,因此通常被认为是不区分说话人的,因此被目前的说话人识别研究所忽略。然而,这些琐碎的事件在某些特殊情况下,如法医鉴定中,具有很高的价值,因为它们很少受到有意改变的影响,所以可以用来从伪装的言语中发现真正的说话人。本文收集了一个包含75个说话人和6种事件的小事件语音数据库,并通过人工听者和机器在该数据库中报告了初步的说话人识别结果。特别是,我们小组最近提出的深度特征学习技术被用于分析和识别微小事件,导致可接受的等错误率(EER)在5%到15%之间,尽管这些事件的持续时间非常短(0.2-0.5秒)。比较不同类型的事件,“嗯”似乎更具说话人的辨别力。
-
INTRODUCTION
生物认证对现实和网络的安全都具有重要意义。在虹膜、掌纹、指纹和人脸等多种生物特征识别技术中,声纹由于其方便性和非侵入性,近年来受到了广泛的关注。经过几十年的研究,基于声纹的说话人识别(SRE)取得了显著的进步。[1,2,3,4]目前的SRE研究大多是关于“常规言语”的,即人们有意制造的、涉及明确语言内容的言语。对于这类语音,声带振动和声道调制都能获得丰富的说话人信息,因此说话人的可识别性是可以接受的。许多算法已经,提出用这类语音进行SRE,包括最流行的统计模型方法[5,6,7]和最近出现并引起广泛兴趣的神经模型方法。[8,9,10]尽管在常规语音方面取得了重大进展,但对语音信号中非语言部分的研究仍然非常有限。例如,当我们和别人说话时,我们可能会咳嗽和大笑;当我们听别人说话时,我们可能会发出“咯吱咯吱”的声音(人们不赞成某事时用舌头说话)或“嗯”的声音(人们表达怀疑或不确定)。这些事件是由不同的个人习惯产生的,很少包含语言信息。然而,它们确实传达了关于演讲者的信息。例如,如果我们熟悉一个人,我们甚至可以通过一个笑声认出他/她。由于这些非语言和非常规事件在我们的谈话中无处不在,我们称之为“琐碎事件”。典型的琐碎事件包括咳嗽、大笑、“啊哼”(试图引起注意的人的短暂咳嗽)等。SRE对琐碎事件的一个关键价值在于,这些事件对潜在的伪装具有抵抗力。例如,在司法审查中,这些案件可能会故意改变他们的嗓音对抗声纹测试,这将极大地愚弄人的听力和造成现存系统的失效。然而,小事件很难被说话人伪造,这使得利用这些事件从伪装的言语中发现真正的说话人成为可能。我们将在第5节中展示伪装的速度、接收方式和技术现状。一个有趣的问题是:哪种琐碎的事件传递了更多的说话人信息?此外,谁更容易从这些事件中识别说话者,人还是机器?在之前的工作中,我们研究了三个小事件:咳嗽、大笑和“wei”(汉语中的Hello),发现利用卷积时滞深神经网络(CT-DNN),可以获得意想不到的高识别精度:等错误率(EER)低至11%,咳嗽0.3秒。[11]这种良好的性能主要归功于我们最近提出的深度说话人特征学习技术。[10]在本文中,我们将前人的工作[11]扩展到以下几个方面:(1)我们将研究扩展到6种琐碎事件,即咳嗽、大笑、嗯、tsk-tsk、ahem和嗅探;(2)我们收集了一个琐碎事件语音数据库并将其发布给公众使用;(3)我们比较了人类听众和,本文的主要工作如下:第三章简要介绍了深度特征学习方法,第四章介绍了小事件语音数据库CSLT-trivial-I。第5节介绍了人机试验的性能,第6节给出了一些结论和讨论。 -
RELATED WORK
对小事件的说话人识别仍然是有限的。我们注意到的最相关的工作来自Hansen等人。[12,13]他们分析了尖叫语音的声学特性,并使用基于高斯混合模型通用背景模型的识别系统研究了这类语音的SRE性能。与常规语音相比,性能明显下降。有些研究不关注我们定义的琐碎的言语事件,但仍然与我们的工作相关。例如,Fan等人。[14]研究了耳语对SRE的影响,以及Hanilc¸i等。[15]研究了大声讲话的影响。 -
DEEP FEATURE LEARNING
现有的说话人识别技术大多基于统计模型,例如高斯混合模型通用背景模型(GMM-UBM)框架〔5〕和随后的子空间模型,如联合因子分析方法〔6〕和I向量模型。[7,16]通过判别模型和各种归一化技术(例如,支持向量机模型[17]和PLDA[18])获得了额外的增益。这些统计方法的一个共同特点是它们使用原始声学特征,例如流行的Mel频率倒谱系数(MFCC)特征,并且依赖于长的语音片段来发现单个说话人的分布模式。由于大多数小事件都很短,这些统计模型不太适合表示它们。神经模型方法近年来受到了广泛的关注。与统计模型方法相比,神经网络方法侧重于学习帧级说话人特征,因此更适合于处理短小的语音片段,如琐碎事件。这种方法最初是由Ehsan等人提出的。[8]训练了一个规则的深度神经网络(DNN)来区分训练数据中的说话人,并以输入的语音帧为条件。然后从最后一个隐藏层提取帧级特征,并通过平均帧级特征得到基于话语的表示,称为“d-向量”。最近,我们提出了一种新的卷积时延DNN(CT-DNN)结构,通过这种结构可以显著提高说话人特征的学习质量。[10]特别地,我们发现新的特征能够在短的语音片段中获得显著的性能。在我们之前的研究中,这个性质已经被用来识别两个小事件(咳嗽和大笑),并且取得了良好的性能。[11]更多关于
,CT-DNN模型可以在[10]中找到,包括体系结构和优化方法。培训配方也可在线1获取。本文主要采用深度特征学习方法来识别和分析更多的小事件,并将其性能与人工听者的性能进行比较。 -
DATABASE DESIGN
在对琐碎的言语事件进行分析之前,一个合适的言语语料库是首要考虑的问题。不幸的是,目前公开的事件数据库很少。唯一的例外是为尖叫检测和识别而收集的UT非语音语料库[12,13],但是这个语料库只包含尖叫、咳嗽和口哨。由于我们对无所不在的不易被说话者有意改变的事件更感兴趣,因此需要一个更复杂的数据库。因此,我们决定建立自己的数据库并将其发布给公众使用。这个数据库用CSLT-TRIVIAL-I表示,为了收集数据,我们设计了一个移动应用程序,并将其分发给同意参与的人。应用程序要求参与者按随机顺序说出6种琐碎事件,每种事件随机发生10次。随机顺序确保每个事件的记录有合理的差异。记录的采样率设置为16khz,采样精度为16位。我们收到了300名参与者的录音。参与者的年龄从20岁到60岁不等,大多数在15岁到30岁之间。手动检查这些记录,删除那些具有清晰通道效果(噪音、背景杂音和回声)的记录。最后,语音片段被清除,每个片段只保留一个事件(例如,一次咳嗽或一次大笑)。在这项人工检查之后,保留了75人的记录,每人每项活动有5至10段。表1显示了清除的数据库的数据配置文件。除了琐碎的事件数据库,我们还收集了一个伪装数据库。这个数据库的目标是测试人类听众和现有的SRE技术将受到怎样的影响。
演讲者故意伪装。这将有助于我们更好地理解研究琐碎事件的价值。用于收集CSLT-triviti的同一个应用程序用于收集伪装数据库的记录。在录音之前,要求参与者在录制伪装讲话时尽量伪造自己的声音。在录音过程中,申请者要求参与者念6个句子,每个句子包含5到10个单词。每句话讲两次,一次是正常语体,一次是故意伪装。在手动检查中,删除了具有许多通道效果的段。经过人工检查,保留了75名发言者的录音。这个数据库由CSLT-fage-I表示。表2详细显示了数据配置文件。CSLT-TRIVIAL-I和CSLT-case-I已在线发布2。用户可以免费下载并在ApacheLicenseV版本2.0下使用它们。 -
EXPERIMENTS
本节报告我们的实验。我们首先介绍了两个用于研究的SRE系统,一个是基于i-向量模型的SRE系统,另一个是基于深度说话人特征学习的SRE系统(称为d-向量系统)。此外,还报告了两个SRE系统在CSLTTRIVIAL-I上的性能,并与人类监听器的性能进行了比较。最后,在CSLT-Passie- I上进行了伪装检测实验,演示了语音伪装如何愚弄人类和现有的SRE系统。
5.1. SRE systems
为了便于比较,我们建立了两个SRE系统:i-向量系统和d-向量系统。对于i-向量系统,输入特征包括19维mfcc加上对数能量,再加上其一阶和二阶导数。UBM由2048个高斯分量组成,i向量空间的维数为400。采用三种评分方法:余弦距离、LDA投影后余弦距离和PLDA。LDA投影空间的维数为150。当PLDA用于评分时,i向量是长度标准化的。系统使用Kaldi SRE08配方进行训练。[19]对于d向量系统,输入特征涉及40维滤波器组(Fbanks)。使用对称的4帧窗口连接相邻帧,结果是9
总共帧。输出单元为5000个,与训练数据中的扬声器数量相对应。从最后一个隐藏层中提取帧级说话人特征,通过对所有帧级说话人特征进行平均,得到每个说话人的d矢量。在测试过程中,i-vector系统使用的评分方法也用于dvector系统,包括余弦距离、LDA和PLDA。以语音海洋数据库为训练集,通过电话记录,采样率为16khz。数据库由5000名说话人组成,共有803654条汉语语句。该训练集用于训练ivector系统的UBM、T矩阵和LDA/PLDA模型,以及d矢量系统的CT-DNN模型。
5.2. SRE on trivial events
在第一个实验中,我们通过人工侦听器和两个SRE系统来评估SRE在琐碎事件上的性能。使用CSLT-TRIVIAL-I数据库进行测试。它由75个演讲者和6种琐碎事件组成,每种类型的演讲者大约涉及10个片段。录音的原始数据是16千赫,与语音海洋数据数据库相匹配。在人工测试过程中,监听器显示36个是/否问题,每个事件类型6个问题。对于每个问题,听者被要求听两个从相同事件类型中随机抽取的语音片段,50%的概率来自同一个说话者。允许侦听器多次执行测试。我们收集了33次试验,总计1188次试验。根据检测错误率(DER)评估性能,DER是整个试验中错误答案的比例,包括假警报和假拒绝。结果见表3。可以看出,人类可以从一个很短的琐碎事件中分辨出说话者,特别是用鼻音“嗯”。对于咳嗽、大笑和“啊哼”,人类可以获得一些说话人信息,但表现较低。对于“tsk-tsk”和sniff,性能非常差,并且侦听器给出的答案几乎是随机的。这在一定程度上是可以预料的,因为这两种类型的事件听起来很弱,而且产生它们并不需要太多的声带和声道。
对于机器测试,每种事件类型大约有26万个测试。表4中报告了i-向量系统和d-向量系统的EER结果。可以看出,d-向量系统的性能优于i-向量系统
系统以较大幅度的优势,证实了深度说话人特征学习方法比统计模型方法更适合于识别短语音片段。比较不同的事件,可以发现“嗯”传达的信息最多,而咳嗽、大笑、“嗯”则信息量较少。“Tsk Tsk”和Sniff是最没有区别的。所有这些观察结果与人体试验结果一致。此外,我们发现对于d-向量系统,判别规范化方法LDA和PLDA在hmm和sniff上没有明显的优势。一个可能的原因是在这两种事件中几乎没有说话人内部的差异,因此基于统计的歧视是没有帮助的。比较人类和机器,我们可以发现最好的机器系统,即d-向量系统,具有很强的竞争力。尽管DER和EER值不能直接比较,但结果仍然大致表明,在几乎所有类型的琐碎事件上,d向量系统比人类犯的错误更少。特别是,在人类表现最差的事件上,即“tsk tsk”和sniff,机器工作得更好。尽管我们邀请的听众不是专业的语言科学家,而且结果可能会受到人类听众使用的音频设备的影响,但这些结果仍然提供了有力的证据,证明机器在听琐碎事件方面可能比人类做得更好。
5.3. Disguise detection
在第二个实验中,我们研究了人类和机器如何辨别伪装的语音。对于人体测试,听众被呈现6个试验,每个试验包含来自同一个说话人的两个样本,但其中一个样本可以是伪装的版本。听者被要求判断两个样本是否来自同一个说话者。为了避免任何偏见,听众被告知有些语音样本是伪装的。一些试验也可能涉及冒名顶替者的言语(不是同一个演讲者),但这些试验只用于在试验中注入噪声,不计入最终结果。共收集到198条试验,DER结果为47.47%。这表明,人类的听者在辨别伪装的言语方面基本上是失败的。两个SRE系统的EER结果见表5。可以发现,机器在识别伪装语音方面比人类做得更好,但错误率仍然很高同样,d-向量系统表现得更好
为了更直观地观察语音伪装的影响,我们利用t-SNE在二维空间绘制了d矢量系统产生的深层说话人特征。[20]结果如图1所示。我们可以看到,正常和伪装的讲话之间的差异是高度依赖于说话人的:有些说话人不是好的声音伪造者,但有些说话人可以做得很好。
6。结论
本文研究和比较了人类听者和机器在说话人识别任务中的性能。我们对6种琐碎事件的实验表明,人和机器都能在一定程度上区分说话人和琐碎事件,特别是那些涉及清晰声道活动的事件,例如“嗯”。此外,深度说话人特征学习方法比传统的统计模型方法在这项任务上有更好的效果,并且在大多数情况下优于人类听众。我们还测试了人类和机器在伪装语音上的性能,发现语音伪装确实给他们俩带来了严峻的挑战。