SRILM学习笔记说明

最新推荐文章于 2022-07-31 00:42:34 发布

yqzhao

最新推荐文章于 2022-07-31 00:42:34 发布

阅读量7.7k

点赞数 5

分类专栏： SRILM 语言模型文章标签：数据结构语言存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yqzhao/article/details/7932056

版权

最近学习了一下SRILM的源代码，分享一下学习笔记（最新完整版本），希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平，不足之处，望大家多多指教。笔记的主要内容使用starUML及其逆向工程工具绘制，主要针对SRILM的训练（ngram-count），内含5个jpg文件：类图--与ngram-count相关的主要类的静态图；ngram-count--从语料训练出模型的主要

摘要由CSDN通过智能技术生成

最近学习了一下SRILM的源代码，分享一下学习笔记（最新完整版本），希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平，不足之处，望大家多多指教。

笔记的主要内容使用starUML及其逆向工程工具绘制，主要针对SRILM的训练（ngram-count），内含5个jpg文件：

类图--与ngram-count相关的主要类的静态图；
ngram-count--从语料训练出模型的主要流程；
lmstats.countfile--ngram-count的子流程，用于构建词汇表和统计ngram的频度
ngram.estimate--ngram-count的子流程，在词汇表和ngram频度的基础上计算ngram条件概率以及backoff权值的过程
ngram.read--与训练无关，分析读取ARPA格式的语言模型的过程

SRILM训练ngram的过程简单说来，可归结为以下几个步骤：

先建立Vocab（词汇表）类型与LMStats（用于ngram统计）类型的两个实例（即vocab和intStats，intStats中存有vocab的一个引用）；
调用intStats的countFile函数完成（对输入语料文件中&#x

最低0.47元/天解锁文章

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
10
评论
SRILM学习笔记说明

最近学习了一下SRILM的源代码，分享一下学习笔记（最新完整版本），希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平，不足之处，望大家多多指教。笔记的主要内容使用starUML及其逆向工程工具绘制，主要针对SRILM的训练（ngram-count），内含5个jpg文件：类图--与ngram-count相关的主要类的静态图；ngram-count--从语料训练出模型的主要
复制链接

扫一扫

专栏目录

yqzhao CSDN认证博客专家 CSDN认证企业博客

码龄20年

2: 原创

55万+: 周排名

168万+: 总排名

1万+: 访问

: 等级

166: 积分

10: 粉丝

6: 获赞

12: 评论

8: 收藏

私信

关注

热门文章

分类专栏

最新评论

SRILM学习笔记说明
嘤嘤子: 请问存储结构的图片是论文里面的吗？想问下去哪看具体的呢？
使用pdfbox提取pdf文件中的字符信息
木头已成舟: 为什么都是老版本的？都是这个例子毛用都没啊
使用pdfbox提取pdf文件中的字符信息
小资质: 出不来啊？
SRILM学习笔记说明
azkz: 目前老师要求自学SRILM，简直是帮了大忙！不过请问一下，您有在window上安装过么？
SRILM学习笔记说明
yqzhao 回复 dolphin_sky: 好啊，搞mt，有前途，我之前也挺想了解了解，不过没看几下giza就把我给绊住了，之后又琐事缠身就不了了之了，对你的工作很期待啊，以后多多向你请教。

最新文章

使用pdfbox提取pdf文件中的字符信息

目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。