语言模型（一）工具和使用简介

最新推荐文章于 2025-01-30 20:26:49 发布

xmdxcsj

最新推荐文章于 2025-01-30 20:26:49 发布

阅读量7k

点赞数

分类专栏：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xmdxcsj/article/details/48109407

版权

语言模型专栏收录该内容

7 篇文章

订阅专栏

一、常用工具

1. Kenlm https://kheafield.com/code/kenlm/

C++版本，最大特点是速度快、占用内存少

2. Srilm http://www.speech.sri.com/projects/srilm/

SRI（Standford ResearchInstitute）开发，使用比较广泛，c++版本

3. IRSTLM http://sourceforge.net/projects/irstlm/

IRSTLM是意大利TrentoFBK-IRST实验室开发的语言模型训练工具包，其开发的目的是处理较大规模的训练数据

4. MITLM https://code.google.com/p/mitlm/

5. BerkeleyLM https://code.google.com/p/berkeleylm/

Java版本，速度和kenlm差不多，内存比srilm小

参考：

http://52opencourse.com/111/斯坦福大学自然语言处理第四课-语言模型（language-modeling）

http://www.52nlp.cn/language-model-training-tools-srilm-details

二、Srilm使用

1. 构建语言模型

【ngram-count】：用于统计ngram的个数和生成最终的语言模型

【ngram-merge】：用于merge多个ngram count文件，适用于内存不足以容下所有语料的情况

2. 语言模型得分

【ngram】：用于语言模型打分、计算困惑度（perplexity）、产生句子和模型插值

3. 语言模型插值

【ngram】：用于语言模型打分、计算困惑度（perplexity）、产生句子和模型插值

4. 语言模型剪枝

三、Srilm使用的文件类型

1. Ngram

最常用的arpa文件，格式如下：

\data\

ngram1=n1

ngram2=n2

...

ngramN=nN

\1-grams:

p w [bow]

...

\2-grams:

p w1 w2 [bow]

...

\N-grams:

p w1 ... wN

...

\end\

2. Classes

基于class的语言模型的格式，如下：

class [p] word1 word2 ...

其中class是语言模型中使用的class name，p是该条class定义的概率，word是该class对应的具体word

3. Psfg

Probabilistic finite-state grammars是一种被SRIDecipher（SRI的解码器）使用的有限状态机。

name name

nodes Nw1 ... wN

initial i

final f

transitionsT

n1 n2 p

...

4. Nbest

用于nbest的重打分

博客等级

码龄16年

132
原创

318
点赞

981
收藏

821
粉丝

关注

私信

热门文章

分类专栏

python 2篇
工具 7篇
sphinx 3篇
linux相关 3篇
机器学习 10篇
杂谈 3篇
htk 8篇
android 2篇
语音识别 10篇
mapreduce
神经网络 21篇
torch 8篇
gpu 3篇
语言模型 7篇
theano 1篇
audio
kaldi 15篇
声学模型 20篇
c/c++ 2篇
线性代数库 4篇
语音合成 5篇

展开全部收起

上一篇：: JNI学习方法

下一篇：: MapReduce

最新评论

自监督预训练（三）wav2vec 2.0原理剖析
4.018: ”对于1s的语音长度对应矩阵(1,16000)，论文中的channels大小设置的为512，对应的输出为(512,16000/320)=(512,50)，可以得到50个512维的向量，相当于每20ms产生一个512维的特征向量。“在这段话中，最后应该生成的是（512，49）吧，原文用的是floor函数，向下取整，不知道说的是不是对的，求指正
自监督预训练（三）wav2vec 2.0原理剖析
wust不吃洋葱: 请问feature encoder最后两层cnn的输出为什么不是(x-80)/160和(x-80)/320呢？
CTC学习笔记（一）简介
凯尔哥: 我真的是没搞明白，为什么这篇博客会有这么高的阅读量
CTC学习笔记（二）训练和公式推导
treeswolf: 这篇博客，最后导softmax前的输出的推导是最清楚的了，其它篇都没有，泛泛而谈。
自监督预训练（二）语音部分
小方abc: 工作了还有时间看这么多论文吗？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。