首先,需要在系统安装git工具
yum install -y git
然后克隆kaldi源码
git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk --origin golden
下载完毕以后,cd kaldi-trunk进去看看下载了一些什么东西。
其中,tools,src和egs这三个目录是比较重要。
tools目录下面全部都是Kaldi依赖的包。
OpenFST:Weighted Finite State Transducer library,是一个用来构造有限状态自动机的库。我们知道隐马尔科夫模型就可以看成是一个有限状态自动机的。这是最终要的一个包,Kaldi的文档里面说:If you ever want to understand Kaldi deeply you will need to understand OpenFst.诶,要学的好多。
ATLAS:这是一个C++下的线性代数库。做机器学习自然是需要很多矩阵运算的。
IRSTLM:这是一个统计语言模型的工具包。
sph2pipe:这是宾夕法尼亚大学linguistic data consortium(LDC)开发的一款处理SPHERE_formatted数字音频文件的软件,它可以将LDC的sph格式的文件转换成其它格式。
src目录存放的是Kaldi的源代码。egs存放的是Kaldi提供的一些例子。我们现在要做的就是编译安装Kaldi依赖的各种库,然后编译安装Kaldi
安装kaldi需要依赖automake autoconf libtool g++ zlib libatal wget
需要依次安装
yum install gcc-c++
yum install patch
yum install automake
yum install autoconf
yum install zlib zlib-devel
yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel -y
需要安装python3
下载python3
wget "https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz"
解压
tar -zxvf Python-3.5.0.tgz
创建目录
mkdir /usr/local/python3
编译安装python3
Python-3.5.0/configure --prefix=/usr/local/python3
make
make install
cd /usr/bin/
ln -s /usr/local/python3/bin/python3 /usr/bin/python3
进入kalditools目录
cd kaldi-trunk/tools/
make
输入make -j 4命令可以加快速度(多核并行处理)
进入src目录,输入./configure进行配置,然后输入make depend,完成之后输入make进行编译
cd ../src/
./configure
make clean
make depend
make
时间比较久,使用参数 -j 4可提高速度
Kaldi自带的例子都放在egs目录下