自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 MLE,EM,MAP 三种算法对比和理解

reference link: http://blog.csdn.net/upon_the_yun/article/details/8915283 最大似然估计(MLP):   (1) 写出似然函数   (2) 对似然函数取对数,并整理   (3) 求导数   (4) 解似然方程 假设x为独立同分布的采样,θ为模型参数, f为我们所使用的模型, 那么最大似然估计可以表示为: Sit

2016-09-29 01:51:23 19356

原创 带宽和采样频率

今天被虐了,没有学过信号处理,在平时的学习中也没有注重这些基础知识. 带宽:带宽是反映信号频率通过能力,带宽越大,对信号中的各种频率成分(特别是高频成分)能准确有效地放大与显示,也就较为准确,如果带宽不够,那就会损失很多高频成分,信号自然就显示不准确了,出现较大误差。 在一秒的时间内最大最多能通过的信号,所以带宽要大于等于最高频率fmax. 采样率: 而采样率是将模拟量转换为数字量时对信号转

2016-09-28 15:19:49 54761 2

原创 kaldi直接使用FFT频谱

#!/bin/bashif [ -f path.sh ]; then . ./path.sh; fi . parse_options.sh || exit 1;cmd=run.plnj=10logdir=make_fftname=testscp=data/test/wav.scpfftdir=fftmkdir -p fftmkdir -p make_fftfor n in $(

2016-09-21 21:07:41 1960

原创 EER(等概率错误)

Equal Error Rate , 这个在说话人识别,说话人确认中最常用的评价标准,之前不是很理解,为什么不用直接的错误率,不管是识别还是确认,错了就错了,对了就对了,然后统计一下,计算错误率不是更直接嘛,为什么要制造nontarget target , 然后去计算EER? 还记得trials文件嘛,还记得没有cvs文件自己伪造trials文件嘛, 还记得不明白为什么要制造50%或者80%

2016-09-16 23:22:39 18611 1

原创 kaldi常用工具(原理分析)

kaldi monophone 相关工具原理介绍

2016-09-15 20:22:11 9666

原创 k-means算法

有时候GMM-UBM的初始化可以采用k-means方法,k-means的原理很简单,但是也存在很多的优缺点。 K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。(百度百科) 算法的基本过程: 1.首先根据问题的规模和要求,确定要分成几类,这个K值是必须给出的。 K值的给出很关键,这

2016-09-14 22:46:42 998

原创 kaldi常用的工具

本文部分参考自: http://www.360doc.com/content/15/0101/10/13208159_437287894.shtml样例是用自己的数据跑的,改编自wsj,文件名称不是很标准,但重点是工具的使用,加路径是为了好理解,内容暂时不解释,以后有时间来补充。这个文档太棒了,理解每一个步骤,语音识别的整个流程也就懂了,太赞1. 查看生成的后缀为fst的状态机文件,比

2016-09-14 20:28:25 11569

原创 Tandem Features or Bottleneck Features

这两个词刚看到的时候没反应过来是什么意思,在 Deep Neural Network based Text-Dependent Speaker Recognition:Preliminary Results 这篇文章中,原文如下: Another approach that makes use of a phonetic discriminant DNN for speaker verifica

2016-09-13 17:08:32 2640

原创 GMM(高斯混合模型)以及简单实现

本文主要是学习比较,主要参考这两篇博文,写的非常通俗易懂: http://blog.pluskid.org/?p=39 http://freemind.pluskid.org/machine-learning/regularized-gaussian-covariance-estimation/ http://blog.csdn.net/gugugujiawei/article/detail

2016-09-04 22:34:20 13533 1

原创 kaldi中改写sre10/v1用timit dataset做说话人识别总结

经过一个周的调试修改,终于在timit数据集上跑通了sre10中的v1 demo, 特来总结一下,重新理顺一下思路,把其中的各个步骤的算法大体的捋一遍。 最重要的还是数据准备阶段,由于没有原始的数据,整个过程进行的比较困难,花了差不多一个周的时间来各种改,之前第一次跑wsj那个demo的时候才花了不到一个周,现在对kaldi还算比较熟悉,对数据处理的脚本也都写出来了,只需要稍微改一下就好,总之还是

2016-09-03 20:28:50 12283 14

mysql中文手册

很好的中文学习手册,平时没事多看看手册,mysql还是不难的

2013-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除