自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 生成对抗网络GAN(二) 语音相关

生成对抗网络GAN(二) 语音相关@(gan)多任务对抗学习[1] 为了获得对噪音的鲁棒性,引入多任务学习,分为三个网络: - 输入网络(绿色),用作特征提取器 - senone输出网络(红色),用作senone分类 - domain输出网络(蓝色),domain这里指噪音的类型,总共17种噪声为了增加对噪音的鲁棒性,增加了GRL层(gradient reversal layer),网络在反

2017-11-12 16:59:33 12010 5

原创 生成对抗网络GAN(一) 简介和变种

基本概念[1]目标函数零和游戏(zero-sum game) 纳什均衡 minimax算法 GAN借鉴了零和游戏的思想,引入生成网络和辨别网络,让两个网络互相博弈,当辨别网络不能辨别数据来自于真实分布还是生成网络的时候,此时的生成网络可以当做一个数据分布到另一个数据分布的转化器。 假设生成网络GG,辨别网络DD,noise数据zz,noise分布pz(z)p_z(z),data数据xx,da

2017-11-12 16:57:56 4175

原创 声学特征转换 kaldi工具

基本工具1.transform-featstransform-feats <transform> <input-feats> <output-feats>其中transform是对应的特征转化矩阵,如果transform是rxfilename形式,认为是speaker-independent;如果transform是rspecifier形式,有-utt2spk选项,认为是per-speaker,没有

2017-11-12 16:32:32 3495

原创 声学特征变换 LDA

含义Linear Discriminant Analysis 线性判别式分析是一种降维算法,特征经过映射以后,在新的空间有最大的类间距离和最小的类内距离;LDA降维的维度跟类别的个数有关 相关公式推导可以参考这篇博客kaldi实现特征降维特征做完splice以后进行降维steps/train_lda_mllt.shacc-lda #使用pdf-id作为类别,获得统计量est-lda #获得ld

2017-11-12 16:31:18 2882

原创 声学特征变换 STC/MLLT

背景Global Semi-tied Covariance (STC)/Maximum Likelihood Linear Transform (MLLT) estimation gmm建模方差使用对角矩阵的前提是假设特征之间相互独立,使用full或者block-diagonal矩阵可以对相关性的特征建模,但是参数增多。为了解决使用这个问题,有两种方法: - feature-space 使用DC

2017-11-12 16:30:15 2710

原创 声学特征变换 fMLLR

含义 当测试数据YY和模型Λx\Lambda_x不匹配的时候,可以通过变换的方式进行匹配[1]: - model-space 也就是Λx\Lambda_x转化为Λy\Lambda_y - feature-space 也就是YY转化为XX其中model-space的变换又可以分为两种: - unconstrained: 均值和方差无关 - constrained: 均值和方差变换是相同的形式

2017-11-12 16:29:24 7270 1

原创 声学特征 ivector

提取流程1.UBMuniversal background model[1] 使用GMM建模,UBM的训练通过EM算法完成,有两种方法: - 所有的数据训练出来一个UBM,需要保证训练数据的均衡 - 训练多个UBM,然后合在一起,比如根据性别分成两个,这样的话可以更有效的利用非均衡数据以及控制最后的UBM。2.supervector 使用MAP adaptation对UBM的高斯进行线性插值

2017-11-12 16:26:38 19889 1

原创 声学特征 PNCC

特点power-normalized cepstral coefficients相比于MFCC特征: - 在噪声和混响场景下提升识别效果,尤其在训练语料是clean语音的时候 - 相比于MFCC,计算量提升34.6%使用pncc相比mfcc,噪声和口音测试集可以得到10-15%的相对提升细节 和MFCC/PLP特征的整体对比如上图filter bank相比于MFCC的triangular fi

2017-11-12 16:25:02 9592 1

原创 声学特征 PLP

PLP的由来Linear prediction可以用来获得语音功率谱P(ω)P(\omega)的全极点模型A(ω)A(\omega),也可以把LP看做获取P(ω)P(\omega)的频谱包络的手段,参考前面的文章 由于LP对待所有频率一视同仁,它不符合人耳的听觉机理,比如人耳对于高于800Hz的感知会下降,对于中间频段更敏感。 为了解决这个问题,Hermansky在进行LP之前修改语音的功率谱P

2017-11-12 16:20:16 5362

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除