使用3D-卷积神经网络分析说话人身份模型实现

最新推荐文章于 2024-07-03 17:41:54 发布

Eric An

最新推荐文章于 2024-07-03 17:41:54 发布

阅读量2.6k

点赞数 4

分类专栏：数据专题《大数据异常检测与推荐系统》文章标签： 3d 神经网络

本文链接：https://blog.csdn.net/yunxinan/article/details/74857288

版权

数据专题《大数据异常检测与推荐系统》专栏收录该内容

83 篇文章 0 订阅

订阅专栏

本文是一位西弗吉尼亚大学的博士发布的论文及其相关的研究成果
https://arxiv.org/abs/1705.09422
0前言
综述了一种使用说话人语言的特征来确认身份的例子，让我们利用3D卷积神经网路模型构建Speaker model,从表达中捕捉语音信息和时态分析。

训练一个可以表达层面的语言得到一个说话人分类。
训练完成后导出的模型基于特征提取构建question model的特征标签类说话人模型
通过input的表达文本将提取特征和去噪音干扰的模型与存储的对话人的模型对比得到分类结果。

这是一种基于D-vector系统的特征表达，该模型解决的问题是如何构建一个说话人模型，这个训练需要三个阶段SVP核心技术（Speaker Verification Protocol）
本文亮点技术：
利用3D-CNN构建的说话人模型是通过在SVP的三个阶段中前两个阶段输入相同的语句让网络同步捕捉语意从而实现语音变化中出现噪音干扰和特征提取的干扰，这方案策略在实际得到的验证明显优于D-vector系统

1 代码实现与注释部分

net = slim.conv2(inputs ,16,[3,1,5],strider=[1,1,1],scope='conv11')
net = PReLU(net,'conv11_axtivation')
net = slim.conv2d(net, 16,[3,9,1],stride[1,2,1],scope='conv12')
net = tf.nn.max_pool3d(net,strides=[1,1,1,2,1],ksize=[1,1,1,2,1],padding='VALID',name= 'pool1')
#######Conv-2######
#######Conv-1######
net = slim.conv2d(net,32,[3,1,4],stride=[1,1,1],scope='conv21')
net = PReLU(net,'conv21_activation')
net = slim.conv2d(net,32,[3,8,1],strid[1,2,1],scope='conv22')
net = tf.nn.max_pool3(net, strides=[1,1,1,2,1],ksize=[1,1,1,2,1],padding='VALID',name='pool2')
########conv-3######
########conv-1######
net = slim.conv2d(net,64,[3,1,3],stride[1,1,1],scope='conv31')
net = PReLU(net, 'con31_action')
net = slim.conv2d(net,64,[3,7,1],stride[1,1,1],scope='conv32' )
net = PReLU(net,'conv32_activation')
#########conv-4########
net = slim.conv2d(net,128,[3,1,3],stride=[1,1,1],scope='conv41')
net = PReLU(net,'conv41_activation')
net = slim.conv2d(net,128,[3,7,1],stride=[1,1,1],scope='conv42')
net = PReLU(net,'conv42_activation')
########conv-5#########
net = slim.conv2d(net,128,[4,3,3],stide=[1,1,1],normalizer_fn=None,scope='conv51')
net = PReLU(net,'con51_activation')
logits = tf.contrib.layers.conv2d(net,num_classes,[1,1,1],activarion_fn=None,scope'fc')
#Code:https://github.com/tensorflow/models/tree/master/slim

2 代码模型解释
在tensorflow实现此模型通过input pipeline由用户提供其余部分是通过HDF5文件主要为了便于特征表达存储同时泛化能力提高便于tensorflow上实现。
使用Mel频率倒谱系数（MFCC）特征作为tensorflow框架的语音数据表示方式，生成DCT 1的运算出现了特征的非局部问题，这一过程的加权和卷积中的局部特征对比得到相应结果使得效果突出。
采用能量对数的方案（MFEC)或者叫对数能量提取特征和舍弃DCT的特征计算原理一样，在时间特征重复的20ms跨度为10ms达到生成的频谱特征便于lab。
使用0.8s的语音样本可以输出80个时间特征集合每个都是由40个MFEC特征。每个输入的特征图的维度是“SVP第一第二阶段语句数量×80×40”他们是由80个输入帧的参数矩阵和相似的图谱特征组织构成slim的API
这里写图片描述