2019年04月_Xwei1226

06月 04月 03月 02月 01月

原创基于GMM-HMM语音识别系统的算法推导（全）

最近研究完CTC，转而研究GMM-HMM；参考文献：《语音识别实践》；《数学之美》；清华大学开源资料；爱丁堡大学语音识别课件；以及一些高校本硕博学位论文；本文将会刷新你对GMM-HMM的认识，以及对EM算法加深理解；本文将对GMM-HMM中的转移概率，发射概率，高斯核权重以及Viterbi算法解码进行推导：以上为所...

2019-04-21 14:55:21 3722 17

转载 kaldi 中文件读取

* 1.ark,scp文件~/kaldi/src/featbin/copy-featsark:raw_mfcc_dev.10.arkark,t:-|headark存的试二进制文件，scp可以直接用cat命令看。*2.fst文件~/kaldi/tools/openfst-1.6.2/bin/fstprintL.fst|head-n10~/kaldi/t...

2019-04-23 18:16:16 1650

转载 tensorflow 新版

AttributeError: 'module' object has no attribute 'SummaryWriter'tf.train.SummaryWriter改为：tf.summary.FileWriterAttributeError: 'module' object has no attribute 'summaries'tf.merge_all_summaries...

2019-04-10 18:26:05 312

转载 tf中命名空间

1. tf.Variable与tf.get_variabletensorflow提供了通过变量名称来创建或者获取一个变量的机制。通过这个机制，在不同的函数中可以直接通过变量的名字来使用变量，而不需要将变量通过参数的形式到处传递。TensorFlow中通过变量名获取变量的机制主要是通过tf.get_variable和tf.variable_scope实现的。当然，变量也可以通过tf.Va...

2019-04-10 09:35:37 443

虽然现在端到端语音识别模型可以直接对后验概率建模，可以不需要HMM结构了。但实际上目前很多state-of-the-art模型还是以HMM结构为主，比如chain model。而且掌握HMM-GMM结构，对于深入理解语音识别过程是由有一定好处的。但对于外行(比如像我这种从机械行业转行到语音识别领域的人)或者刚接触语音识别的人来说，要弄懂HMM-GMM结构还是要花不少时间的，因为语音识别任务的特殊...

2019-04-09 09:00:34 3273 3

转载语音识别的前世今生

这是我4月份在BitTiger公开课听的王赟大牛《语音识别的前世今生》整理的笔记，本来打算整理通畅再发的，结果实在没时间就一拖再拖。笔记有些草率，不过应该可以看明白，希望可以对大家有用，也祝王赟大神好。Q&A1. 历史上非特定人和特定人的语音识别是不是有很大的不同？这个就是前面讲过的打补丁，各种说话人适应的那一页（如下图）这一页上的这三种方法就是历史上，其实也包...

2019-04-03 18:32:55 992

转载 ctc decoder

本文主要对CTC 原理及实现中的代码进行解释。1.np.random.seed(1111)请参见本专栏文章numpy中random.seed()的妙用2.softmax的实现代码是这样的：def softmax(logits): max_value = np.max(logits, axis=1, keepdims=True) exp = np.exp(log...

2019-04-01 21:12:09 2774

test_python.rar

论文基于家庭陪护的场景需求，设计并制作语音机器人物理样机，提出了该样机的控制系统框架，同时，基于上述研究内容开展了相关实验研究。首先，依据语音控制与语音交互需求指标，选取合适的硬件设备进而搭建了语音机器人物理样机。其次研究了适用于该机器人控制算法，再选取合理的 DCNN-CTC 端到端语音识别模型进而构建了语音机器人控制系统。最后，基于该控制系统进行了语音控制与语音陪护的实验。

2020-08-23