Chapter5_Speaker_Verification

最新推荐文章于 2023-01-10 22:00:00 发布

七元权

最新推荐文章于 2023-01-10 22:00:00 发布

阅读量666

点赞数

分类专栏：课程笔记-李宏毅文章标签：人工智能自然语言处理神经网络深度学习李弘毅

本文链接：https://blog.csdn.net/zjuPeco/article/details/106870542

版权

课程笔记-李宏毅专栏收录该内容

31 篇文章 14 订阅

订阅专栏

文章目录

1 Task Introduction
2 模型架构
3 模型介绍
4 End to End

本文为李弘毅老师【Speaker Verification】的课程笔记，课程视频youtube地址，点这里👈(需翻墙)。

下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。

文章索引：

上篇 - 4-2 More than Tacotron

下篇 - 6 Vocoder

总目录

1 Task Introduction

在之前的课程当中已经讲过了语音转文字，文字转语音，语音转语音这几个，这次要来讲一下语音转类别。也就是给语音分类。
ch5-1

与语音转类别相关的任务有情感识别，语音事件检测，自闭识别，关键词识别等等，这些技术都是大同小异，今天主要来讲一下【语者验证】。
ch5-2

语者验证指的就是输入两段语音，输出这两段语音是同一个人说出来的概率。有一个应用场景就是【银行客服】。当我们第一次打电话给银行或者去银行的时候，客服会把我们的声音记录下来，然后当我们下一次再打电话给银行的时候，银行就可以比对以下这次的声音和之前的声音是否都是我们说出的，如果不是的话，就需要额外的验证手续了。在判断是否为同一个语者发出的声音时，会人为设置一个threshold，大于该值则为同一个人说的，否则不是。threshold的大小可以根据场景需求设置。
ch5-3
不难想象，只要我们的threshold取的不同，模型的正确率也就会不同。那么，我们如何来评价这个模型的好坏呢？有一个指标叫做Equal Error Rate(EER)，EER指的就是下图中，橙色斜线与蓝色曲折线的交点值大小。橙色的线就是一条斜率为1的直线，蓝色的线是我们在取不同大小的threshold时，代表模型结果的FP和FN的值的位置。FP指的是不同语者被判断成同一个语者的概率，FN指的是同一语者被判断成不同语者的概率。如果蓝色的线和橙色的线的交点值越小，那么模型越好。
ch5-4

2 模型架构

整个模型从框架上来说，其实并不复杂。模型就是一个可以抽取语音中语者信息的网络，然后输入一段语音之后，就可以吐出这段语音对应的语者信息向量，也成为speaker embedding。整个过程可以分为三个阶段：

训练模型：
找一个有多个人说话的数据集，然后把这些语音放到模型里去训练，得到一个得以抽取说话人语者信息的模型。用来训练的数据集一般会比较大。谷歌的非公开数据集有18000个语者说的3600万条语音。这个真的是非常大了，我们没法得到这样的数据集。目前的公开数据集，可以使用VoxCeleb或者VoxCeleb2。这些公开的数据集，就比谷歌的数据集要小很多啦。
录入模板音
把说话人第一次说话的声音录入下来，输入模型中，讲吐出的语者信息向量作为模板存放起来
对比声音
把新加入的声音输入模型当中，得到语者信息向量，将其与之前存放起来的模板进行相似度的计算，判断是否是同一人说的

3 模型介绍

3.1 i-vector

i-vector不是深度学习的模型。李老师说，这个模型可以说是语音界最后一个被深度学习打败的模型，在16年左右，还是比深度学习的模型效果好的。这个模型这里不做介绍，它就是一个不管输入多长的语音，都可以吐出一个400维的向量的模型。
ch5-6

3.2 d-vector

d-vector是14年提出的一个和i-vector效果差不多的深度学习模型。差不多就是说还没有i-vector好。它的思想很简单，在训练的时候，就是截取语音中的一小段之后，把这段放到DNN里去训练，最后输出这段话是哪个人说的。训练结束之后，倒数第二层的feature就是我们要的speaker embedding了。
ch5-8
在实际预测的时候，我们的输入语音是不等长的，因此d-vector会把语音截成多段，然后取这几段特征的平均值作为最后的speaker embedding。
ch5-7

3.3 x-vector

x-vector是d-vector的升级版，它在训练的时候，就考虑了整段声音信号的信息。它会把每一小段的声音信号输出的特征，算一个mean和variance，然后concat起来，再放进一个DNN里去来判断是哪个说话人说的。其他的部分和d-vector一致。
ch5-9

当然，今天我们再来看的时候，会把DNN直接换成RNN就可以了。

3.4 more

除了以上讲到的这几种方法之外，还有很多其他的方法，比如加入了attention的，又比如NetNLAD等等。这里不细讲这些方法，这些方法的框架都是一样的，只不过模型内部有所改变。想了解的同学可以直接看文献。
ch5-10

4 End to End

以上说到的方法，都是train一个speaker recognition的模型，然后拿它的特征来做相似度的计算。其实相似度计算这部分，也可以直接放进模型里去训练，做成一个end-to-end的模型。我们的数据集还是和之前的一样，有一堆多个speaker说的话，我们知道每句话是哪个speaker说的。在end-to-end训练的时候，我们会把k段同一个人A说的话放进模型里，得到一个平均之后的特征，然后再从数据集中抽取一段A说的话，作为正样本，抽取一段非A说的话，作为负样本，然后也输入模型得到一个特征。两个特征做相似度的计算，希望正样本下的score越高越好，负样本下的score越低越好。
ch5-11
这种做法也可以分为text-dependent和text-independent。text-dependent就是输入的语音所说的话是固定，知道的。text-independent就是输入的话是随机的。在text-independent的时候，我们可以在抽出来的特征这里加一个discriminator用来做语音转文字。我们的模型就是要试图去骗过这个discriminator，两者共同进步。这个也是很多地方都用到的一个方法。
ch5-12

七元权

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
Chapter5_Speaker_Verification

文章目录1 Task Introduction2 模型架构3 模型介绍3.1 i-vector3.2 d-vector3.3 x-vector3.4 more4 End to End本文为李弘毅老师【Speaker Verification】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。文章索引：上篇 - 4-2 More than Tacotron下篇 - 待更新总目录1 Task Introduction
复制链接

扫一扫