KenLm的环境安装及使用总结
前言
最近,在学习宗庆后的统计自然语言处理中的N元文法求句子概率时,老师介绍了两个模型(KenLM和SRILM)可以从语料库中训练并建模,求出概率。目前使用比较好的有KenLM及SRILM模型,其中KenLM比SRILM晚出来,训练速度也更快,而且支持单机大数据的训练。本文主要对KenLM的分析。
前提配置
- VMware workstation Pro 15
- UbuntuDesktop 18.04(配置尽量高,虚拟机内存尽量在8G,双处理器,双核)
- clone一份虚拟机,以防第一个崩掉,可以及时使用clone的,不用等太长时间再安装
环境配置的过程及步骤
1.python版本修改
由于Ubuntu18.04中的python版本有两个,一个是2.7,一个是3.6,我们可以两个都不用,下载一个最新的版本,以防后续命令由于版本不匹配导致异常。
wget https://www.python.org/ftp/python/3.7.4/Python-3.7.4.tgz
#解压文件
tar zxvf Python-3.7.4.tgz
#进入安装目录
sudo ./configure

本文详细介绍了KenLM环境在Ubuntu 18.04上的安装步骤,包括Python版本升级、软件源修改、Boost、XZ、Zlib、Bzip2的安装,以及最后KenLM的构建与测试。通过这个过程,读者可以成功搭建起KenLM模型的运行环境。
最低0.47元/天 解锁文章
875

被折叠的 条评论
为什么被折叠?



