2017年11月_xmdxcsj

原创生成对抗网络GAN（二）语音相关

生成对抗网络GAN（二）语音相关@(gan)多任务对抗学习[1] 为了获得对噪音的鲁棒性，引入多任务学习，分为三个网络： - 输入网络（绿色），用作特征提取器 - senone输出网络（红色），用作senone分类 - domain输出网络（蓝色），domain这里指噪音的类型，总共17种噪声为了增加对噪音的鲁棒性，增加了GRL层（gradient reversal layer），网络在反

2017-11-12 16:59:33 12010 5

原创生成对抗网络GAN（一）简介和变种

基本概念[1]目标函数零和游戏（zero-sum game）纳什均衡 minimax算法 GAN借鉴了零和游戏的思想，引入生成网络和辨别网络，让两个网络互相博弈，当辨别网络不能辨别数据来自于真实分布还是生成网络的时候，此时的生成网络可以当做一个数据分布到另一个数据分布的转化器。假设生成网络GG，辨别网络DD，noise数据zz，noise分布pz(z)p_z(z)，data数据xx，da

2017-11-12 16:57:56 4175

基本工具1.transform-featstransform-feats <transform> <input-feats> <output-feats>其中transform是对应的特征转化矩阵，如果transform是rxfilename形式，认为是speaker-independent；如果transform是rspecifier形式，有-utt2spk选项，认为是per-speaker，没有

2017-11-12 16:32:32 3495

原创声学特征变换 LDA

含义Linear Discriminant Analysis 线性判别式分析是一种降维算法，特征经过映射以后，在新的空间有最大的类间距离和最小的类内距离；LDA降维的维度跟类别的个数有关相关公式推导可以参考这篇博客kaldi实现特征降维特征做完splice以后进行降维steps/train_lda_mllt.shacc-lda #使用pdf-id作为类别，获得统计量est-lda #获得ld

2017-11-12 16:31:18 2882

原创声学特征变换 STC/MLLT

背景Global Semi-tied Covariance (STC)/Maximum Likelihood Linear Transform (MLLT) estimation gmm建模方差使用对角矩阵的前提是假设特征之间相互独立，使用full或者block-diagonal矩阵可以对相关性的特征建模，但是参数增多。为了解决使用这个问题，有两种方法： - feature-space 使用DC

2017-11-12 16:30:15 2710

原创声学特征变换 fMLLR

含义当测试数据YY和模型Λx\Lambda_x不匹配的时候，可以通过变换的方式进行匹配[1]： - model-space 也就是Λx\Lambda_x转化为Λy\Lambda_y - feature-space 也就是YY转化为XX其中model-space的变换又可以分为两种： - unconstrained: 均值和方差无关 - constrained: 均值和方差变换是相同的形式

2017-11-12 16:29:24 7270 1

原创声学特征 ivector

提取流程1.UBMuniversal background model[1] 使用GMM建模，UBM的训练通过EM算法完成，有两种方法： - 所有的数据训练出来一个UBM，需要保证训练数据的均衡 - 训练多个UBM，然后合在一起，比如根据性别分成两个，这样的话可以更有效的利用非均衡数据以及控制最后的UBM。2.supervector 使用MAP adaptation对UBM的高斯进行线性插值

2017-11-12 16:26:38 19889 1

原创声学特征 PNCC

特点power-normalized cepstral coefficients相比于MFCC特征： - 在噪声和混响场景下提升识别效果，尤其在训练语料是clean语音的时候 - 相比于MFCC，计算量提升34.6%使用pncc相比mfcc，噪声和口音测试集可以得到10-15%的相对提升细节和MFCC/PLP特征的整体对比如上图filter bank相比于MFCC的triangular fi

2017-11-12 16:25:02 9592 1

原创声学特征 PLP

PLP的由来Linear prediction可以用来获得语音功率谱P(ω)P(\omega)的全极点模型A(ω)A(\omega)，也可以把LP看做获取P(ω)P(\omega)的频谱包络的手段，参考前面的文章由于LP对待所有频率一视同仁，它不符合人耳的听觉机理，比如人耳对于高于800Hz的感知会下降，对于中间频段更敏感。为了解决这个问题，Hermansky在进行LP之前修改语音的功率谱P

2017-11-12 16:20:16 5362

xmdxcsj的专栏