一、kenlm安装
1、安装依赖包
对新安装的ubuntu系统,可能会缺失很多依赖包,如果已安装可以忽略。
sudo apt-get update # 升级apt-get
sudo apt-get install cmake gcc g++ # 安装编译器
sudo apt install libboost-dev libboost-test-dev libboost-all-dev # 安装boost
sudo apt install libeigen3-dev # 安装eigen3
sudo apt install libbz2-dev liblzma-dev # 安装BZip2、LibLZMA
2、安装kenlm
wget -O - http://kheafield.com/code/kenlm.tar.gz |tar xz # 下载安装包
cd kenlm
mkdir -p build
cd build
cmake ..
make -j 4
二、使用kenlm训练n-gram语言模型
1、进入kenlm的build文件夹
cd ~/kenlm/build/
2、执行训练命令
bin/lmplz -o 4 --verbose header --text corpus.txt --arpa lm_4gram.arpa --skip_symbols
- -o 4:指定为4-gram
- --verbose header:指定在模型文件开始生成gram统计
- --text:训练文本语料
- --arpa:输出的模型文件名,arpa格式
- --skip_symbols:训练时跳过文本语料中的特殊符号(<s> </s> <unk>)</