![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kaldi
zx超
这个作者很懒,什么都没留下…
展开
-
语音识别之WFST解码器
(1)——从arpa格式的ngram到G.fst: https://zhuanlan.zhihu.com/p/572143181。原创 2024-03-29 17:21:27 · 142 阅读 · 0 评论 -
mfcc 计算过程
https://www.jianshu.com/p/ea59eb6c2829原创 2024-03-10 00:36:53 · 373 阅读 · 0 评论 -
Ngram:多语言模型插值
mix-lambda2 用于插值的第二个模型(-mix-lm对应的模型)的比例,那么第二个模型的比例为1-lambda-mix-lambda2。-limit-vocab 当两个模型的词典不一样的时候,使用该参数限制词典列表,没有效果。-mix-lm 用于插值的第二个ngram模型,-lm是第一个ngram模型。-vocab 当两个模型的词典不一样的时候,使用该参数限制词典列表,没有效果。-lambda 主模型(-lm对应模型)的插值比例,0~1,默认是0.5。-mix-lm2 用于插值的第三个模型。原创 2023-05-06 17:42:44 · 882 阅读 · 0 评论 -
kaldi源码解析实践
AIBigKaldi(十六)| Kaldi的quick模型(源码解析)AIBigKaldi(十五)| Kaldi的说话人自适应模型(源码解析)AIBigKaldi(十四)| Kaldi的特征转换模型(源码解析)AIBigKaldi(十三)| Kaldi的三音子模型训练(下)(源码解析)AIBigKaldi(十二)| Kaldi的三音子模型训练(中)(源码解析)AIBigKaldi(十一)| Kaldi的三音子模型训练(上)(源码解析)AIBigKaldi(十)| Kaldi的thchs30实例(原创 2022-05-30 11:08:42 · 369 阅读 · 0 评论 -
kaldi学习笔记
1.单音素训练2.三音素训练3.WFST基础概念4.WFST compose5.WFST Determinization6.WFST Minimization7.WFST-based dynamic decoders8.统计语言模型9.神经网络语言模型10.word2vec11.NLP模型转载 2022-04-12 00:25:23 · 141 阅读 · 0 评论 -
kaldi的安装编译测试
kaldi的安装与编译1.kadi的安装我的系统是Ubantu18.041.1 下载直接利用git版本控制系统sudo apt-get install git1.2利用git clone 来下载kaldi源代码sudo git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin golden1.3检查需要安装的库进入tools文件下运行extras/check_dependencies.sh文件cd kaldi/too原创 2021-01-13 22:22:30 · 1117 阅读 · 0 评论 -
基于Kaldi的中文在线识别系统
基于Kaldi的中文在线识别系统转载 2022-02-14 09:27:43 · 512 阅读 · 0 评论 -
语音(八)——GMM-HMM声学模型
语音(八)——GMM-HMM声学模型转载 2022-02-13 19:22:47 · 205 阅读 · 0 评论 -
语音(七)——基于GMM的0-9语音识别系统
语音(七)——基于GMM的0-9语音识别系统转载 2022-02-13 19:21:34 · 182 阅读 · 0 评论 -
语音(六)——混合高斯模型(GMM)
语音(六)——混合高斯模型(GMM)转载 2022-02-13 19:19:03 · 194 阅读 · 0 评论 -
语音(五)——隐马尔科夫模型(HMM)
语音(五)——隐马尔科夫模型(HMM)转载 2022-02-13 19:18:06 · 110 阅读 · 0 评论 -
语音(四)——MFCC特征提取
语音(四)——MFCC特征提取转载 2022-02-13 19:16:24 · 299 阅读 · 0 评论 -
语音(三)——傅里叶变换家族
语音(三)——傅里叶变换家族转载 2022-02-13 19:01:22 · 372 阅读 · 0 评论 -
语音(二)——语音预处理
1 预滤波CODEC说得通俗一点,对于音频就是A/D和D/A转换。前端带宽为300-3400Hz(语音能量主要集中在250~4500Hz)的抗混叠滤波器。工程测量中采样频率不可能无限高也不需要无限高,因为一般只关心一定频率范围内的信号成份。为解决频率混叠,在对模拟信号进行离散化采集前,采用低通滤波器滤除高于1/2采样频率的频率成份。实际仪器设计中,这个低通滤波器的截止频率(fc) 为:截止频率(fc)= 采样频率(fs) / 2.562 A/D转化8kHz的采样频率,12bit的线性量化精度。转载 2022-02-13 18:56:53 · 2059 阅读 · 0 评论 -
语音(一)| 语音识别基础(深度解析)
1 声音特性声音(sound)是由物体振动产生的声波。是通过介质传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源。声音以波的形式振动传播。声音是声波通过任何介质传播形成的运动。频率:是每秒经过一给定点的声波数量,它的测量单位为赫兹,1千赫或1000赫表示每秒经过一给定点的声波有1000个周期,1兆赫就是每秒钟有1,000,000个周期,等等。音节:就是听觉能够自然察觉到的最小语音单位,音节有声母、韵母、声调三部分组成。一个汉字的读音就是一个音节,一个英文单词可能有一个或多个音节构转载 2022-02-13 18:42:01 · 3726 阅读 · 1 评论 -
kaldi :详解aishell-1全过程【**数据准备**】
kaldi :详解aishell-1全过程【数据准备】环境:ubantu18.04过程简单说来就是:①语料数据准备 下载语料库到本地/服务器的文件夹data_url=www.openslr.org/resources/33. ./cmd.shlocal/download_and_untar.sh $data $data_url data_aishell || exit 1;local/download_and_untar.sh $data $data_url resource_aishell原创 2021-03-06 01:00:45 · 2306 阅读 · 0 评论 -
解析kaldi中的yesno的语音分帧和模型
看了很多内容,还是不明白kaldi是如何处理每一段语音的。可以做下面的实验为了结合kaldi,可以将kaldi中yesno的对齐结果解析出来。步骤如下:1、跑完yesno的run.sh脚本,获得模型0.mdl、HCLG.fst和ali.1.gz2、命令行cd kaldi/egs/yesno/s5/exp/mono0a3、执行命令~/kaldi/src/bin/copy-int-vector “ark:gunzip -c ali.1.gz|” ark,t:ali.txt4、上一步生成了ali.txt转载 2021-03-25 16:17:08 · 520 阅读 · 0 评论 -
语音识别—kaldi常用文件查看指令
ark特征文件copy-feats 可以用来改变特征数据的格式,因此可以转换ark格式文件为txt格式:用法: copy-feats [options] 例子:先查找copy-feats的目录(每个人可能不一样):`find /home/speech.AI/kaldi/ -name` `copy-feats`得到copy-feats的目录:/home/speech.AI/kaldi/src/featbin/copy-feats然后执行指令:~/kaldi/src/featbin/.原创 2021-03-25 16:42:26 · 1276 阅读 · 0 评论