2017-Speaker Recognition with Cough, Laugh and “Wei”

Speaker Recognition with Cough, Laugh and “Wei”

Miao Zhang∗†, Yixiang Chen∗, Lantian Li∗and Dong Wang∗
∗Center for Speech and Language Technologies (CSLT), RIIT, Tsinghua University
Tsinghua National Laboratory for Information Science and Technology
†Beijing University of Posts and Telecommunications

Abstract
提出了一种带有咳嗽、大笑等琐碎语音事件的说话人识别(SRE)任务。这些琐碎的事件在会话中无处不在,很少受到有意改变的影响,因此提供了从伪装的言语中发现真正的说话人的有价值的特殊性。然而,琐碎的事件往往是短暂的,白痴的光谱模式,使SRE极其困难。幸运的是,我们发现了一个非常强大的深度特征学习结构,可以提取高度说话人敏感的特征。利用该工具,我们研究了在咳嗽、大笑和“Wei”三种琐碎事件上的SRE表现。结果表明,在这些琐碎的事件中存在着丰富的说话人信息,即使对于咳嗽,说话人的可分辨性也很弱。使用深度特征方法,三个小事件的EER可以达到10%-14%,尽管它们的持续时间非常短(0.21.0秒)。

I. INTRODUCTION
说话人自动识别(SRE)是一种重要的生物认证技术。经过几十年的发展,SER已经取得了长足的进步,其性能已经足以满足一些有限制的应用,例如,有足够的注册和测试语音,语音信号的质量是合理的[1],[2]。尽管有显著的成功,但是,几乎所有现有的SRE方法都在长时间的语言语音段上工作,例如具有清晰和长的语言内容的段,如“Hello,谷歌”[3 ]。本文主要研究语音信号中的一些“小事件”,如咳嗽、大笑和“Wei”(汉语中的“hello”)。这些事件在会话中无处不在,并且通常具有不同的属性,因此研究每个事件中加载了多少说话人信息是非常有趣的。此外,对琐碎事件的SRE可以提供一个强大的工具来攻击言语伪装,因为想要伪装个人身份的人不容易改变她/他在这些琐碎事件上的行为。在SRE的这些琐碎事件上,我们做得很少。这并不奇怪:对常规语音的识别一直是出了名的困难,所以处理那些通常很短并且可能只包含非语言内容的琐碎事件要困难得多。例如,咳嗽通常短至0.2秒,发音与正常讲话明显不同:气流迅速从肺部涌出,强烈震动声带。在这样一个短而不典型的信号中,要预测说话人的信息量是不容易的,从我们的。如果一个演讲者可以从咳嗽中辨认出来,如果我们不熟悉这个人。此外,针对琐碎事件的训练数据通常非常有限:尽管它们在会话中无处不在,但数据量只占整个语音的很小比例。我们还没有发现任何大型数据库关注于琐碎的事件。本文利用我们组最近提出的深度说话人特征方法来解决小事件SRE问题。该方法设计了一个深度神经网络(DNN),从大量原始数据中学习帧级说话人特征,模型的输入是一个帧加一个短上下文,目标包含训练数据库中的所有说话人。学习的目的是发现一个说话人特征提取器(通过DNN层次结构),它可以从一个语音帧窗口中提取对说话人敏感的特征。Li等人。[4]报告了非常有希望的结果,发现即使是很短的语音片段也能获得很好的识别精度。这种特征学习方法因此提供了一个强大的工具来发现说话人信息负载的小语音段,并检索它如果存在的话。我们将使用此工具来研究琐碎事件,并尝试回答以下三个问题:•特定琐碎事件是否涉及说话人信息?·说话人信息是否可以从一个琐事中提取出来,从事件语音中提取出来?•使用常规语音数据库训练的深层特征模型是否可以迁移以识别琐碎的事件片段?我们的焦点放在三种琐碎的事情上:咳嗽、大笑和“小威”。我们之所以选择这些类型,是因为它们是电话交谈中最常见的类型之一,并且具有很强的代表性。首先,咳嗽主要与声带夹有关,且对声带的调制作用不大,因此频谱不包含共振峰;笑也与语音相关,但声道可能在一定程度上对可能存在的频谱共振峰进行调制;具有清晰的共振峰结构。图1显示了同一个演讲者的咳嗽、大笑和“Wei”的频谱。可见,“笑”中存在共振峰模式,但笑时不清楚,咳嗽时完全不存在。从另一个角度看,咳嗽是非常短的(少于0.3秒),“Wei”通常是非常短的(例如,大约0.4秒),笑在长度上有很大的变化,无论是在说话人内部还是在说话人之间。最后,在这三类事件中,说话人信息的负载在直觉上是不同的:似乎“Wei”包含了最丰富的说话人信息,因为人们在拿起电话时可以识别出谁在用一个“Wei”说话。笑是第二种,咳嗽似乎是最模糊的。综上所述,对这三类事件的研究可以提供一个合理的小事件SRE图。

本文的主要工作如下:首先在第二节中简要介绍了深度特征学习方法,然后在第三节中介绍了我们为本研究收集的小事件语音数据库,在第四节中介绍了实验结果,在第五节中给出了一些结论和讨论。

II. DEEP FEATURE LEARNING
大多数现有的成功的SRE方法是基于模型的。例如著名的高斯混合模型通用背景模型(GMM-UBM)框架[5]和随后的子空间模型,包括联合因子分析方法[6]和i向量模型[7]。它们是生成模型,大量使用无监督学习。通过判别补偿(例如,支持向量机模型[8]或PLDA[9])或子空间建模[10],[11]实现了改进。几乎所有这些方法都基于原始声学特征,例如流行的Mel频率倒谱系数(MFCC)特征。基于模型的方法的优点是,它们可以发现不同扬声器的语音信号的基于组的行为,并因此在最大似然意义上做出适当的决定。然而,对静态模型的依赖很大程度上阻碍了研究人员发现说话人特征的内在和本质机制的热情。在不知道这个本质的情况下,现有的方法必须依靠长的语音段来识别说话人,通过观察段内的语音帧的“分布模式”。由于训练、注册和测试的琐碎事件数据有限,使用基于模型的方法来区分琐碎事件语音片段将是困难的。唯一可能的解决办法是尽可能多地提取说话人。信息尽可能从短而不典型的琐碎事件语音中提取,并使用尽可能简单的模型进行判别。这就是所谓的“基于特征”的方法。不幸的是,传统的基于特征的方法依赖于人类的知识,这些知识已经被证明是无效的,即使对于常规的语音,更不用说那些我们的知识还远远不够丰富的琐碎事件语音了。幸运的是,我们最近的研究表明,从原始语音信号中学习说话人敏感特征是可能的,这是由深神经网络(DNN)[4]启发于Ehsan的研讨会工作[3]。我们发现一个简单的DNN模型可以很好地学习说话人的特征,并且在很小的语音段上可以获得很好的SRE性能。这一成功事实上证明了说话人的特征在很大程度上是一种短期的频谱特性,而不是一种长期的分布模式。它还提供了一种可能性,可以发现一个说话人的基本特征,其讲话片段非常小,例如咳嗽或大笑。我们设计的DNN结构包含几个卷积层和几个延时层:前者提取局部判别模式,后者允许长时间上下文。这称为CT-DNN模型。图2说明了这项工作中使用的CT-DNN结构。更具体地说,CT-DNN结构由卷积(CN)分量和时延(TD)分量组成,由由512个隐藏单元组成的瓶颈层连接。卷积组件包括两个CN层,每个CN层后面跟着一个max池。TD分量包括两个TD层,每个TD层后面跟着一个P范数层。这两个组件的设置,包括补丁大小、特征映射数、延时窗口、P-范数的组大小,如图2所示。一个简单的计算表明,使用这些设置,有效上下文窗口的大小为20帧。P-范数层的输出被投影到由400个单元组成的特征层,该特征层连接到输出层,其单元对应于训练数据中的扬声器。利用自然随机梯度下降(NSGD)[12]算法可以方便地训练该CT-DNN模型。一旦经过训练,就可以从特征层(即模型的最后一个隐藏层)读取说话人特征。如文献[3]所述,话语水平表示称为“d向量”,是通过简单地平均话语中所有帧的说话人特征而得到的。在测试过程中,分别产生了注册语和测试语的d向量。然后将这两个向量之间的余弦距离用作SRE任务的决策分数。与i矢量系统类似,一些简单的归一化方法可以用来提高SRE性能,如线性判别分析(LDA)和概率LDA(PLDA)。将上述深度特征学习方法应用于小事件SRE时,一个特殊的问题是训练数据的高度稀疏性。很难收集大量琐碎的事件演讲片段,尤其是咳嗽和大笑。在这项研究中,我们简单地使用了一个经过训练的模型。有一个庞大的常规语音数据库。我们的假设是,训练数据虽然不是针对琐碎事件的,但仍然包含一些有价值的信息,特别是一些琐碎事件的语音可以用常规电话来表示,例如“Wei”。此设置还将测试深度特征学习模型的泛化能力,并检查由琐碎事件语音生成的说话人特征是否与由规则语音生成的说话人特征相同。

III. DATABASE CONSTRUCTION
尽管该模型可以用常规的语音数据库进行训练,但测试数据必须特别准备。由于没有适合我们研究的公共数据库,我们决定构建一个小型的小事件语音数据库进行测试,并将数据发布给公众使用。这个数据库用“CSLT-COUGH100”表示,可以在线下载1。表一详细列出了数据概况。

为了收集数据,我们设计了一个简单的Android应用程序,它指导用户点击一个按钮来记录咳嗽、大笑和“Wei”。录音包括三个环节,每一环节对应一种类型的活动。在每节课中,演讲者都被要求多次(不少于8次)说出所要求的事件(咳嗽、大笑、小威),并有他们喜欢的任何变化。然后用手把录音分成几段,每段只包含一个事件。记录的采样率为16khz,采样精度为16位。录音大多是在办公环境中,但有些是在街上收集的。参与者的年龄从20岁到60岁不等,尽管大多数参与者的年龄在20-30岁之间

IV. EXPERIMENTS
本节报告我们的实验结果。我们首先描述数据和设置,然后报告SRE结果,在等错误率(EER)方面。同时,还对深度特征的判别能力进行了分析。
A. Data
采用Fisher数据库作为训练集,通过电话记录,采样率为8khz。使用CSLT-COUGH100作为测试集。由于CSLT-COUGH100的原始数据是16khz,我们将信号降采样到8khz以匹配Fisher数据库。这两个数据集的更多细节如下。•训练集:由2500名男性和2500名女性演讲者组成,从Fisher数据库中随机抽取95167个话语,每个演讲者有大约120秒的语音片段。该数据集用于训练i-vector系统的UBM、T矩阵和LDA/PLDA模型,以及d-vector系统的CT-DNN模型。•测试集:CLST-COUGH100数据库,由104个扬声器组成。数据库包含三类琐碎事件(咳嗽、大笑和“Wei”),每类事件包含5-10个片段。详情见表一。

B. Model settings
为了进行比较,我们构建了一个i-向量系统作为基线系统。该系统的原始特征包括19维MFCCs和对数能量。这些原始特征被一阶和二阶导数增强,得到了60维的特征向量。UBM由2048个高斯分量组成,i向量空间的维数为400。LDA投影空间的维数设置为150。以PLDA作为评分指标时,i向量长度归一化。系统使用Kaldi SRE08配方进行训练[13]。d矢量系统使用图2所示的CT-DNN体系结构。输入特征为40维Fbanks。使用一个对称的4帧窗口拼接相邻的帧,总共得到9帧。输出单元为5000个,与培训数据中的发言者数量相对应。帧级扬声器特征是从最后一个隐藏层(中的特征层)提取的,图2),通过平均帧级说话人特征得到话语级d向量。在测试过程中,i-vector系统的评分方法也用于dvector系统,包括余弦距离、LDA和PLDA。

C. Main results
表二报告了i-向量系统和d-向量系统的EER结果。可以观察到,在最佳i向量基线(余弦评分)下,考虑到测试话语持续时间较短,“Wei”(12.72%)的表现相当好。咳嗽和大笑时,表现明显下降(分别为19.96%和23.03%)。这些结果是意料之中的,因为模型并不是有意训练来涵盖这两类琐碎的事件,而且这两个事件的内容大部分是非语言的,因此可能涉及较少的说话人信息。d-vector系统明显优于i-vector系统,说明基于特征的方法更为强大。最佳的d向量系统是PLDA评分系统,咳嗽、大笑和“Wei”的EERs分别达到10.99%、13.76%和10.06%。与i-vector系统相比,“Wei”的EER较低是意料之中的事情,正如我们在[4]中所证明的,在诸如“Wei”这样的小语音段上,d-vector系统比i-vector系统更强。然而,咳嗽和大笑的良好表现却有点令人惊讶:这两个事件都不包含语言内容,但表现并不比语言事件“Wei”差多少。这似乎表明非语言事件仍然包含丰富的说话人信息,这意味着我们的声带是高度复杂和特定于说话人的。i-vector模型对琐碎事件的低性能不应解释为嵌入在这些事件中的说话人信息很少,而是因为i-vector模型不能很好地提取和利用这些信息。对比咳嗽和笑的结果,可以看出笑的表现略差于咳嗽。这又有点出乎意料。根据我们的经验,我们似乎能从一个人的笑声中认出他,而不是咳嗽。一种可能的解释是,由于声道调制的自由度,笑语音可能涉及说话人内部的显著变化。另一方面,咳嗽受声道的调节较小,因此更稳定。为了进行直观的比较,图3显示了三个咳嗽片段和三个笑片段的光谱,来自同一个扬声器。可以看出,这三个笑段明显不同,而咳嗽段几乎相同。最后,我们发现对于这两个系统,区分标准化方法LDA和PLDA并没有提供明显的优势。对于所有规范化方法都会降低所有三种常见事件的性能的ivector系统,情况尤其如此。一个可能的原因是小事件不同于常规语音,所以用常规语音数据库训练的LDA和PLDA模型不太适合。这一论点解释了如果我们承认咳嗽是三种事件中最不同于正常言语的事件,那么使用规范化方法降低咳嗽的表现为什么对咳嗽最为显著。

D. Feature discrimination
在最后一个实验中,我们研究了深度说话人特征的分布,特别是说话人在这三类琐碎事件中的变化。为此,我们随机选取了10个说话人,分别使用tSNE[14]绘制了这三类事件的说话人特征。结果如图4所示。可以看出,对说话者来说,带有“Wei”的习得特征具有相当的歧视性。但从情节(a)和(b)来看,咳嗽和大笑的形象仍有变化。

V. CONCLUSIONS
本文采用深度说话人特征学习方法对小事件进行SRE,重点研究咳嗽、大笑和“Wei”。实验表明,基于规则语音数据库(Fisher)训练的深度特征模型可以用于小事件SRE,取得了意想不到的成功。尽管持续时间极短,根据事件类型,EER可以低至10%-14%。这些结果可以回答在介绍环节中提出的问题:
•一个特定的小事件是否涉及到说话人信息?是的。至少对于本文研究的三个小事件,说话人信息是丰富的。
说话者信息,如果存在于一个小事件中,可以从短片段中提取吗?是的。深度特征方法能够从短而白痴的琐碎事件中提取说话人信息。•使用常规语音数据库训练的深层特征模型是否可以迁移以识别琐碎的事件片段?是的。用Fisher数据库训练的DNN模型在小事件SRE上运行良好。还有很多工作要做:在其他琐碎事件上的表现如何,例如,En,Ah,敲击和拍打语音?实验结果对声学和语言学研究有何启示?在真实的言语伪装场景中,表演会是怎样的?所有人都在接受调查。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值