![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
声学模型
xmdxcsj
毕业于中科院声学所,在BAT从事语音技术研究多年。微信公众号:谈谈语音技术,关注后跟踪最新博文。
展开
-
声学特征(三) pitch
基本含义pitch跟声音的基频fundamental frequency(F0)有关,反应的是音高的信息,即声调。计算F0也被称为‘‘pitch detection algorithms(PDA)。YIN算法sphinx使用的YIN算法提取pitch特征,相对简单而且进行了定点化。 YIN来自于“阴阳”哲学,寓意在autocorrelation和cancellation之间的变换。YIN算法的演化原创 2016-04-25 20:50:42 · 17066 阅读 · 0 评论 -
声学模型学习笔记(五) SDT(MMI/BMMI/MPE/sMBR)
DNN训练使用的CE准则是基于每一帧进行分类的优化,最小化帧错误率,但是实际上语音识别是一个序列分类的问题,更关心的是序列的准确性。所以引入SDT(sequence-discriminative training),训练准则更符合实际,有利于提升识别率。常用的准则包括MMI/BMMI、MPE、MBR等。 准则 目标函数 CE 帧错误率 MMI/BMMI 句子正确率 MPE原创 2016-10-08 19:58:22 · 14218 阅读 · 5 评论 -
Deep Speech笔记
Deep Speech 1 Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G.,Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates,A., et al. (2014a).Deepspeech: Scaling up end-to-end speech recogn原创 2017-02-03 18:20:07 · 10554 阅读 · 0 评论 -
声学特征 PLP
PLP的由来Linear prediction可以用来获得语音功率谱P(ω)P(\omega)的全极点模型A(ω)A(\omega),也可以把LP看做获取P(ω)P(\omega)的频谱包络的手段,参考前面的文章 由于LP对待所有频率一视同仁,它不符合人耳的听觉机理,比如人耳对于高于800Hz的感知会下降,对于中间频段更敏感。 为了解决这个问题,Hermansky在进行LP之前修改语音的功率谱P原创 2017-11-12 16:20:16 · 5316 阅读 · 0 评论 -
声学特征 PNCC
特点power-normalized cepstral coefficients相比于MFCC特征: - 在噪声和混响场景下提升识别效果,尤其在训练语料是clean语音的时候 - 相比于MFCC,计算量提升34.6%使用pncc相比mfcc,噪声和口音测试集可以得到10-15%的相对提升细节 和MFCC/PLP特征的整体对比如上图filter bank相比于MFCC的triangular fi原创 2017-11-12 16:25:02 · 9516 阅读 · 1 评论 -
声学特征 ivector
提取流程1.UBMuniversal background model[1] 使用GMM建模,UBM的训练通过EM算法完成,有两种方法: - 所有的数据训练出来一个UBM,需要保证训练数据的均衡 - 训练多个UBM,然后合在一起,比如根据性别分成两个,这样的话可以更有效的利用非均衡数据以及控制最后的UBM。2.supervector 使用MAP adaptation对UBM的高斯进行线性插值原创 2017-11-12 16:26:38 · 19869 阅读 · 1 评论 -
声学特征变换 fMLLR
含义 当测试数据YY和模型Λx\Lambda_x不匹配的时候,可以通过变换的方式进行匹配[1]: - model-space 也就是Λx\Lambda_x转化为Λy\Lambda_y - feature-space 也就是YY转化为XX其中model-space的变换又可以分为两种: - unconstrained: 均值和方差无关 - constrained: 均值和方差变换是相同的形式原创 2017-11-12 16:29:24 · 7248 阅读 · 1 评论 -
声学特征变换 STC/MLLT
背景Global Semi-tied Covariance (STC)/Maximum Likelihood Linear Transform (MLLT) estimation gmm建模方差使用对角矩阵的前提是假设特征之间相互独立,使用full或者block-diagonal矩阵可以对相关性的特征建模,但是参数增多。为了解决使用这个问题,有两种方法: - feature-space 使用DC原创 2017-11-12 16:30:15 · 2696 阅读 · 0 评论 -
声学特征变换 LDA
含义Linear Discriminant Analysis 线性判别式分析是一种降维算法,特征经过映射以后,在新的空间有最大的类间距离和最小的类内距离;LDA降维的维度跟类别的个数有关 相关公式推导可以参考这篇博客kaldi实现特征降维特征做完splice以后进行降维steps/train_lda_mllt.shacc-lda #使用pdf-id作为类别,获得统计量est-lda #获得ld原创 2017-11-12 16:31:18 · 2872 阅读 · 0 评论 -
声学模型学习笔记(四) dnn speedup
trainingminibatch一般设为256-1024.太小会导致更新参数频繁,降低GPU的计算效率;太大会导致训练需要更多的训练迭代数。piplined bp将模型按层分割,然后分配到不同的GPU机器上面,实现训练的并行。例如下图 一帧数据依次经过三个GPU的前向计算,然后在依次进行后向传播。图中的时刻: - GPU1处理n的前向计算和n-5的bp计算 - GPU2处理n-1的前向计原创 2016-10-08 19:56:00 · 1686 阅读 · 0 评论 -
声学模型学习笔记(二) DNN
trainingtraining criteria1.MSE 对于回归任务,可以使用MSE(mean square error)准则: JMSE(W,b;o,y)=12(vL−y)T(vL−y)J_{MSE}(W,b;o,y)=\frac{1}{2}(v^L-y)^T(v^L-y) yy表示标注结果,vv表示预测结果 2.CE 对于分类任务,可以使用CE(cross-entropy)准则:原创 2016-10-08 19:51:12 · 4000 阅读 · 0 评论 -
声学特征(四) pitch-yin代码实现
参考sphinxbase-0.8/src/libsphinxbase/fe目录下的yin.cyin_init主要有三个参数,含义如下: frame_size: 一帧的数据个数,实际求相关函数的时候τ=frame_size/2\tau=frame\_size/2,所以该值越大,计算量会越大。对应pitch最小频率为fsample/(frame_size/2)f_{sample}/(frame\_si原创 2016-05-17 19:17:40 · 3583 阅读 · 0 评论 -
声学特征(一) HTK抽取MFCC特征
一、相关命令HCopy 抽取特征#config: 下面的参数配置文件#scp: 源文件和目的文件在一行HCopy -C config -S scpHList 查看语音数据查看转化是否正常查看抽取的特征数据二、参数配置参数配置文件SOURCEKIND = WAVEFORMSOURCEFORMAT = WAV SOURCERATE = 625 TARGETKI原创 2016-04-22 23:07:05 · 6510 阅读 · 0 评论 -
声学特征(二) MFCC特征原理
基本含义MFCC是Mel-Frequency Cepstral Coefficients的缩写,顾名思义MFCC特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。梅尔频率梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。和频率的赫兹的关系如下: m=2595log10(1+f700)m=2595log_{10} (1+\frac{f}{700}) 所以原创 2016-04-23 22:36:57 · 79823 阅读 · 9 评论 -
声学模型(一) hmm声学训练流程
声学训练基本流程原创 2016-04-04 17:38:10 · 7340 阅读 · 0 评论 -
声学模型学习笔记(七) advanced deep models
multitask and transfer learningmultitask learning:不同的任务网络,可以共享一部分网络结构(比如说某个隐层) transfer learning:迁移学习SHL-MDNN shared-hidden-layer multilingual DNN,用于训练不同语言的模型,所有的模型共享同一个隐层,输出层跟语言有关。 共用的隐层可以认为是一个特征提取原创 2016-10-08 20:09:03 · 2097 阅读 · 0 评论 -
声学模型学习笔记(三) DNN-HMM hybrid system
architecture 声学信号使用HMM框架建模,每个状态的生成概率使用DNN替换原来的GMM进行估计,DNN每个单元的输出表示状态的后验概率。decoding实际的语音识别解码的时候使用的是似然概率: w^=argmaxwp(w|x)=argmaxwp(x|w)p(w)/p(x)=argmaxwp(x|w)p(w)\hat{w}=argmax_{w}p(w|x)=argmax_{w}p(x原创 2016-10-08 19:54:18 · 15050 阅读 · 2 评论 -
声学模型学习笔记(六) representation learning
feature representation特征抽象 DNN的前L-1层可以认为是特征提取部分,最后一层认为是简单的分类层。 相比于人工设计的特征(比如MFCC),多层(每一层sigmoid都是一种非线性变换)连接起来具有很强的特征抽象能力。 靠近输入层的表示low-level特征;靠近输出层的表示high-level的特征,high-level的特征更为抽象。 如上图,一个特点是hig原创 2016-10-08 20:07:23 · 3385 阅读 · 0 评论 -
声学模型学习笔记(一) HMM
“声学模型学习笔记”是《automatic speech recognition a deep learning approach》这本书的读书笔记,会有少量的个人理解和公式详细推导,声学入门狗一枚,不具有指导意义,具体以原书和列出的参考文献为准,欢迎指导和讨论。HMM含义Markov Chains马尔科夫链,表示一个状态到另一个状态转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布原创 2016-10-08 19:45:48 · 4882 阅读 · 0 评论 -
声学特征转换 kaldi工具
基本工具1.transform-featstransform-feats <transform> <input-feats> <output-feats>其中transform是对应的特征转化矩阵,如果transform是rxfilename形式,认为是speaker-independent;如果transform是rspecifier形式,有-utt2spk选项,认为是per-speaker,没有原创 2017-11-12 16:32:32 · 3485 阅读 · 0 评论