使用3D-卷积神经网络分析说话人身份模型实现

本文是一位西弗吉尼亚大学的博士发布的论文及其相关的研究成果
https://arxiv.org/abs/1705.09422
0前言
综述了一种使用说话人语言的特征来确认身份的例子,让我们利用3D卷积神经网路模型构建Speaker model,从表达中捕捉语音信息和时态分析。

  1. 训练一个可以表达层面的语言得到一个说话人分类。
  2. 训练完成后导出的模型基于特征提取构建question model的特征标签类说话人模型
  3. 通过input的表达文本将提取特征和去噪音干扰的模型与存储的对话人的模型对比得到分类结果。

    这是一种基于D-vector系统的特征表达,该模型解决的问题是如何构建一个说话人模型,这个训练需要三个阶段SVP核心技术(Speaker Verification Protocol)
    本文亮点技术:
    利用3D-CNN构建的说话人模型是通过在SVP的三个阶段中前两个阶段输入相同的语句让网络同步捕捉语意从而实现语音变化中出现噪音干扰和特征提取的干扰,这方案策略在实际得到的验证明显优于D-vector系统

    1 代码实现与注释部分

net = slim.conv2(inputs ,16,[3,1,5],strider=[1,1,1],scope='conv11')
net = PReLU(net,'conv11_axtivation')
net = slim.conv2d(net, 16,[3,9,1],stride[1,2,1],scope='conv12')
net = tf.nn.max_pool3d(net,strides=[1,1,1,2,1],ksize=[1,1,1,2,1],padding='VALID',name= 'pool1')
#######Conv-2######
#######Conv-1######
net = slim.conv2d(net,32,[3,1,4],stride=[1,1,1],scope='conv21')
net = PReLU(net,'conv21_activation')
net = slim.conv2d(net,32,[3,8,1],strid[1,2,1],scope='conv22')
net = tf.nn.max_pool3(net, strides=[1,1,1,2,1],ksize=[1,1,1,2,1],padding='VALID',name='pool2')
########conv-3######
########conv-1######
net = slim.conv2d(net,64,[3,1,3],stride[1,1,1],scope='conv31')
net = PReLU(net, 'con31_action')
net = slim.conv2d(net,64,[3,7,1],stride[1,1,1],scope='conv32' )
net = PReLU(net,'conv32_activation')
#########conv-4########
net = slim.conv2d(net,128,[3,1,3],stride=[1,1,1],scope='conv41')
net = PReLU(net,'conv41_activation')
net = slim.conv2d(net,128,[3,7,1],stride=[1,1,1],scope='conv42')
net = PReLU(net,'conv42_activation')
########conv-5#########
net = slim.conv2d(net,128,[4,3,3],stide=[1,1,1],normalizer_fn=None,scope='conv51')
net = PReLU(net,'con51_activation')
logits = tf.contrib.layers.conv2d(net,num_classes,[1,1,1],activarion_fn=None,scope'fc')
#Code:https://github.com/tensorflow/models/tree/master/slim

2 代码模型解释
在tensorflow实现此模型通过input pipeline由用户提供其余部分是通过HDF5文件主要为了便于特征表达存储同时泛化能力提高便于tensorflow上实现。
使用Mel频率倒谱系数(MFCC)特征作为tensorflow框架的语音数据表示方式,生成DCT 1的运算出现了特征的非局部问题,这一过程的加权和卷积中的局部特征对比得到相应结果使得效果突出。
采用能量对数的方案(MFEC)或者叫对数能量提取特征和舍弃DCT的特征计算原理一样,在时间特征重复的20ms跨度为10ms达到生成的频谱特征便于lab。
使用0.8s的语音样本可以输出80个时间特征集合每个都是由40个MFEC特征。每个输入的特征图的维度是“SVP第一第二阶段语句数量×80×40”他们是由80个输入帧的参数矩阵和相似的图谱特征组织构成slim的API
这里写图片描述

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值