语言模型训练工具SRILM

最新推荐文章于 2024-07-23 18:02:18 发布

beck_zhou

最新推荐文章于 2024-07-23 18:02:18 发布

阅读量1.1w

点赞数

分类专栏：中文分词（分词/人名识别（命名实体识别）/词性标注）算法研究(数据挖掘、机器学习、自然语言、深度学习、搜索引擎) 转型——创业/经济/金融/投资/理财文章标签：语言工具自然语言处理文档 processing translation

本文链接：https://blog.csdn.net/zhoubl668/article/details/7759042

版权

SRILM是SRI实验室开发的用于语音识别、统计标注和机器翻译的工具，主要支持UNIX和Windows平台。它包含C++类库、可执行程序和辅助脚本，用于构建和应用统计语言模型。本文介绍了SRILM的安装、基本组件和n-gram模型的训练及评估过程，还提供了相关资源和深入学习文献。

摘要由CSDN通过智能技术生成

　 SRILM是著名的约翰霍普金斯夏季研讨会（Johns Hopkins Summer Workshop）的产物，诞生于1995年，由SRI实验室的Andreas Stolcke负责开发维护。

　　关于SRILM的安装，我已经在前面关于moses平台搭建的文章（参见：《Moses相关介绍》和《Ubuntu8-10下moses测试平台搭建全记录》）中介绍过了，这里就不再重复。准确的说，SRILM并不是因机器翻译而诞生的，它主要是为语音识别所开发的，全称为Stanford Research Institute Language Modeling Toolkit。事实上统计机器翻译与语音识别关系千丝万缕，我会在以后的文章中介绍。

　　SRILM用来构建和应用统计语言模型，主要用于语音识别，统计标注和切分，以及机器翻译，可运行在UNIX及Windows平台上。它主要包含以下几个部分：

　　• 一组实现的语言模型、支持这些模型的数据结构和各种有用的函数的C++类库；

　　• 一组建立在这些类库基础上的用于执行标准任务的可执行程序，如训练语言模型，在数据集上对这些语言模型进行测试，对文本进行标注或切分等任务。

　　• 一组使相关任务变得容易的各种脚本。

　　SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据（训练集）中得到一个模型，包括最大似然估计及相应的平滑算法；而评测则是从测试集中计算其困惑度（MIT自然语言处理概率语言模型有相关介绍）。其最基础和最核心的模块是n-gram模块，这也是最早实现的模块，包括两个工具：ngram-count和ngram，相应的被用来估计语言模型和计算语言模型的困惑度。一个标准的语言模型（三元语言模型(trigram),使用 Good-Truing打折法和katz回退进行平衡）可以用如下的命令构建：

　　　ngram-count -text TRAINDATA -lm LM

　　其中LM是输出的语言模型文件，可以用如下的命令进行评测：

　　　ngram -lm LM -ppl TESTDATA -debug 2

　　其中具体的参数可参看官方网站的帮助文档，如果你已经在linux下编译好了，可以直接使用man调用帮助文档。事实上,统计机器翻译框架主要用的就是 n-gram这个模块来训练语言模型。下面我们以欧洲语料库的英语语料为例，解析这个工具的作用。语料库下载地址见：欧洲议会平行语料库。本例子使用的是wmt08里面用于英语语言模型训练的europarl-v3b.en，用于机器翻译的预处理过程tokenize和lowercase此处省略，其规模为1412546句：

　　1、从语料库中生成n-gram计数文件：

　　　ngram-count -text europarl-v3b.en -order 3 -write europarl.en.count

　　其中参数-text指向输入文件，此处为europarl-v3b.en；-orde