语音识别
文章平均质量分 81
xiaocao9903
爱音乐,爱运动,爱生活
展开
-
简单获取钢琴 88 个键的音高频率值
procedureTForm1.Button1Click(Sender: TObject);var i: Integer; f: Double;begin f := 440/2/2/2/2; for i := 0 to 87do begin Memo1.Lines.Add(Format('%.3f', [f])); f := f * 1.0594630944...转载 2018-12-15 17:54:07 · 3508 阅读 · 0 评论 -
github语音识别
https://github.com/601222543/my_ch_speech_recognition转载 2018-12-12 09:13:39 · 2763 阅读 · 0 评论 -
使用C语言将pcm数据封装成wav文件
版权声明:版权声明:尊重博主原创文章,转载请注明出处 https://blog.csdn.net/a568478312/article/details/78196285pcm是原始音频数据,wav是windows中常见的音频格式,只是在pcm数据中添加了一个文件头,wav文件格式可以参考http://soundfile.sapp.org/doc/WaveFormat/// WA...转载 2019-02-22 17:08:36 · 1505 阅读 · 0 评论 -
Ubuntu编译/运行HTK
Ubuntu 14.04 64位HTK 3.4.1参考网页:http://htk.eng.cam.ac.uk/docs/inst-nix.shtml编译错误及解决方法:1.找不到头文件 sys/cdefs.hUbuntu的cdefs.h在目录/usr/include/x86_64-linux-gnu/sys/cdefs.h中,在/usr/include目录下建个符号...转载 2019-04-01 18:49:29 · 446 阅读 · 0 评论 -
atlas依赖库安装
sudo apt-get install libatlas-base-dev libatlas3gf-base转载 2019-04-23 10:53:33 · 2674 阅读 · 0 评论 -
HTK HInit 用法
HInit -A -D -T 1 -S trainlist.txt -M hmm0 -H hmm_yes -l yes -L label_dir yesHInit -A -D -T 1 -S trainlist.txt -M hmm0 -H hmm_no -l no -L label_dir no HInit -A -D -T 1 -S trainlist.txt -M hmm0 -H...转载 2019-05-15 10:12:02 · 640 阅读 · 0 评论 -
HVITE用法
hvite解码:./HVite -A -D -i output.mlf -H ./MMF -y rec -T 1 -C ./cfg -t 200.0 -s 14.0 -p -10.0 -r 1.0 -w ../gram.net -S ../test.scp ./train.silsp.dict ./tri.xwrd.cluster.listhvite做alignmet:./HVite -A...转载 2019-06-05 11:24:40 · 368 阅读 · 0 评论 -
倒谱的意义
一直在用倒谱,却忘了倒谱的作用意义了。语音的产生用源、滤波器模型来表示,即把声带振动看作激励源e(n),把声道看成一个滤波器h(n),两者在时域进行卷积,得到语音信号s(n)。为了更好地处理语音,则需要分析s(n)以分别得到e(n)和h(n),这个过程称为解卷过程。倒谱计算本质上为同态处理,就是解卷的一种方法,称为“非参数解卷”,而LPC分析则为另一种方法,称为“参数解卷”,两者的作用都是...转载 2019-07-31 15:56:08 · 7335 阅读 · 1 评论 -
好玩的分词——python jieba分词模块的基本用法
jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。安装jiebapip install jieba简单用法结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍:精确模式import jiebas = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'cut = jieba.cut(s...转载 2018-09-09 10:39:31 · 584 阅读 · 0 评论 -
kaldi使用cpu运行 dnn
当看steps/nnet/train.sh脚本内部时,我们将看到:CUDA是需要的,如果没有检测到GPU或者CUDA没有被编译,脚本将退出。(你可以坚持使用’–skip-cuda-check true’来使用CPU运行,但是速度将慢10-20倍)...转载 2018-05-15 19:47:06 · 2849 阅读 · 2 评论 -
kaldi fstaddselfloops: command not found
出错提示:utils/prepare_lang.sh: line 502: fstaddselfloops: command not foundERROR: FstHeader::Read: Bad FST header: standard input解决方法wget http://www.openfst.org/twiki/pub/FST/FstDownload/openfst-1.6.7.ta...原创 2018-05-04 15:58:26 · 3330 阅读 · 0 评论 -
语音识别博客
http://blog.csdn.net/u010384318/article/category/1514597转载 2016-06-07 11:47:43 · 406 阅读 · 0 评论 -
HMM+GMM语音识别技术详解级PMTK3中的实例
本人正在攻读计算机博士学位,目前一直再学习各种模型啊算法之类的。所以一直想把自己的学习过程总结一下,所以就开通了这个博客。这两天一直再看语音识别方面的知识,想把自己的理解总结一下,希望对其他学习的人有所帮助。提前需要掌握的知识:语音信号基础:语音信号的表示形式、分帧、特征(MFCC)、音素等等HMM模型:离散隐马尔科夫模型级3个问题的求解方法GMM:混合高斯模型,用于连续隐转载 2017-11-14 10:58:44 · 2990 阅读 · 0 评论 -
2-GMM-HMMs语音识别系统-训练篇
本文记录在传统的语音识别中,训练GMM-HMMs声学模型过程中的公式推导过程。OutlineGMM - 混合高斯模型HMM – 隐马尔科夫模型Forward-Backward Algorithm – 前向后向算法首先假设这里的训练数据,都做好了音素层面标记的(Label),即utterance的音素边界是已知的。这样做是为了更好地说明和对应我们的HMM建模单元(monoph转载 2017-11-29 11:35:17 · 548 阅读 · 0 评论 -
静音去除的问题
通话过程中侦测静音。一般来说,和设置的threshold参数关系很大,但是这里仅是要一个算法。或者说,从这侦测到的第一个认为是静音的分组开始,就丢弃还是要等等。如何平滑,从说话到静音,和从静音到说话的过程。多谢首先,这不是一个简单的问题。静音检测,不只是检测通话人是否Talking,更重要的是如何在通话环境中参杂着其他噪声时如何能够排除这些噪声干扰,转载 2017-11-29 18:10:03 · 2192 阅读 · 2 评论 -
htk 工具使用介绍
tool example:./HList -h -s 2000 -e 3000 -F WAV ./data/train/speech/s100.wav------------------- Source: ./data/train/speech/s100.wav -------------------- Sample Bytes: 2 Sample Kin原创 2017-12-19 19:57:41 · 5714 阅读 · 0 评论 -
matlab扩展编程里面的初始化问题
function hmm = inithmm(samples, M)K = length(samples); %语音样本数N = length(M); %状态数hmm.N = N;hmm.M = M;% 初始概率矩阵hmm.init = zeros(N,1);hmm.init(1) = 1;% 转移概率矩阵hmm.trans=zer转载 2017-11-24 19:54:02 · 579 阅读 · 0 评论 -
使用htk搭建语音拨号系统
使用htk搭建语音拨号系统(linux系统,HTK-3.5.beta-2.tar.gz)cd HTKLibmake -f MakefileCPU allcp -rp ./HTKLiblv.a ../HTKTools/cd HTKTools/make -f MakefileCPU all(参考htkbook-3.5.alpha.pdf)Step 1 - t原创 2017-12-13 14:49:57 · 838 阅读 · 0 评论 -
语音信号处理之时域分析-过零率及其Python实现
过零率(Zero Crossing Rate)概念:过零率(Zero Crossing Rate,ZCR)是指在每帧中,语音信号通过零点(从正变为负或从负变为正)的次数。 这个特征已在语音识别和音乐信息检索领域得到广泛使用,是对敲击的声音的分类的关键特征。ZCR的数学形式化定义为:zcr=1T−1∑T−1t=1π{stst−10}zcr=1T−1∑t=1T−1π{stst−1.转载 2018-01-16 14:29:16 · 18160 阅读 · 1 评论 -
语音识别书籍
MATLAB与音视频技术(卓越工程师教育培养计划配套教材——电气工程系列)作者:王永琦 编著 出版社:清华大学出版社 出版时间:2013年11月原创 2016-01-25 14:43:16 · 3062 阅读 · 0 评论