Ubuntu系统kenlm安装及n-gram语言模型训练

本文介绍了在Ubuntu系统中如何安装kenlm库,并详细阐述了使用kenlm训练n-gram语言模型的步骤,包括设置依赖、训练命令、模型转换等。同时提到了在Python环境中应用n-gram模型的方法,并给出了相关参考资料。
摘要由CSDN通过智能技术生成

一、kenlm安装

1、安装依赖包

对新安装的ubuntu系统,可能会缺失很多依赖包,如果已安装可以忽略。

sudo apt-get update    # 升级apt-get

sudo apt-get install cmake gcc g++    # 安装编译器

sudo apt install libboost-dev libboost-test-dev libboost-all-dev # 安装boost

sudo apt install libeigen3-dev   # 安装eigen3

sudo apt install libbz2-dev liblzma-dev  # 安装BZip2、LibLZMA

2、安装kenlm

wget -O - http://kheafield.com/code/kenlm.tar.gz |tar xz   # 下载安装包

cd kenlm
mkdir -p build
cd build
cmake ..
make -j 4

 

二、使用kenlm训练n-gram语言模型

1、进入kenlm的build文件夹

cd ~/kenlm/build/

2、执行训练命令

bin/lmplz -o 4 --verbose header --text corpus.txt --arpa lm_4gram.arpa --skip_symbols
  • -o 4:指定为4-gram
  • --verbose header:指定在模型文件开始生成gram统计
  • --text:训练文本语料
  • --arpa:输出的模型文件名,arpa格式
  • --skip_symbols:训练时跳过文本语料中的特殊符号(<s> </s> <unk>)</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值