2016年09月_jinmingz

12月 11月 10月 09月 08月 07月 06月 05月 04月 02月 01月

原创 MLE，EM，MAP 三种算法对比和理解

reference link: http://blog.csdn.net/upon_the_yun/article/details/8915283 最大似然估计(MLP): 　　（1）写出似然函数　　（2）对似然函数取对数，并整理　　（3）求导数　　（4）解似然方程假设x为独立同分布的采样，θ为模型参数, f为我们所使用的模型, 那么最大似然估计可以表示为： Sit

2016-09-29 01:51:23 19356

原创带宽和采样频率

今天被虐了，没有学过信号处理，在平时的学习中也没有注重这些基础知识. 带宽：带宽是反映信号频率通过能力，带宽越大，对信号中的各种频率成分（特别是高频成分）能准确有效地放大与显示，也就较为准确，如果带宽不够，那就会损失很多高频成分，信号自然就显示不准确了，出现较大误差。在一秒的时间内最大最多能通过的信号，所以带宽要大于等于最高频率fmax. 采样率：而采样率是将模拟量转换为数字量时对信号转

2016-09-28 15:19:49 54761 2

原创 kaldi直接使用FFT频谱

#!/bin/bashif [ -f path.sh ]; then . ./path.sh; fi . parse_options.sh || exit 1;cmd=run.plnj=10logdir=make_fftname=testscp=data/test/wav.scpfftdir=fftmkdir -p fftmkdir -p make_fftfor n in $(

2016-09-21 21:07:41 1960

原创 EER(等概率错误)

Equal Error Rate , 这个在说话人识别，说话人确认中最常用的评价标准，之前不是很理解，为什么不用直接的错误率，不管是识别还是确认，错了就错了，对了就对了，然后统计一下，计算错误率不是更直接嘛，为什么要制造nontarget target , 然后去计算EER？还记得trials文件嘛，还记得没有cvs文件自己伪造trials文件嘛，还记得不明白为什么要制造50%或者80%

2016-09-16 23:22:39 18611 1

原创 kaldi常用工具（原理分析）

kaldi monophone 相关工具原理介绍

2016-09-15 20:22:11 9666

原创 k-means算法

有时候GMM-UBM的初始化可以采用k-means方法，k-means的原理很简单，但是也存在很多的优缺点。 K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。（百度百科）算法的基本过程： 1.首先根据问题的规模和要求，确定要分成几类，这个K值是必须给出的。 K值的给出很关键，这

2016-09-14 22:46:42 998

原创 kaldi常用的工具

本文部分参考自： http://www.360doc.com/content/15/0101/10/13208159_437287894.shtml样例是用自己的数据跑的，改编自wsj，文件名称不是很标准，但重点是工具的使用，加路径是为了好理解，内容暂时不解释，以后有时间来补充。这个文档太棒了，理解每一个步骤，语音识别的整个流程也就懂了，太赞1. 查看生成的后缀为fst的状态机文件，比

2016-09-14 20:28:25 11569

原创 Tandem Features or Bottleneck Features

这两个词刚看到的时候没反应过来是什么意思，在 Deep Neural Network based Text-Dependent Speaker Recognition:Preliminary Results 这篇文章中，原文如下： Another approach that makes use of a phonetic discriminant DNN for speaker verifica

2016-09-13 17:08:32 2640

原创 GMM（高斯混合模型）以及简单实现

本文主要是学习比较，主要参考这两篇博文，写的非常通俗易懂： http://blog.pluskid.org/?p=39 http://freemind.pluskid.org/machine-learning/regularized-gaussian-covariance-estimation/ http://blog.csdn.net/gugugujiawei/article/detail

2016-09-04 22:34:20 13533 1

原创 kaldi中改写sre10/v1用timit dataset做说话人识别总结

经过一个周的调试修改，终于在timit数据集上跑通了sre10中的v1 demo, 特来总结一下，重新理顺一下思路，把其中的各个步骤的算法大体的捋一遍。最重要的还是数据准备阶段，由于没有原始的数据，整个过程进行的比较困难，花了差不多一个周的时间来各种改，之前第一次跑wsj那个demo的时候才花了不到一个周，现在对kaldi还算比较熟悉，对数据处理的脚本也都写出来了，只需要稍微改一下就好，总之还是

2016-09-03 20:28:50 12283 14

mysql中文手册

很好的中文学习手册，平时没事多看看手册，mysql还是不难的

2013-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人