kenlm python模块详解

最新推荐文章于 2024-07-14 14:54:40 发布

xueyuyuewu

最新推荐文章于 2024-07-14 14:54:40 发布

阅读量2.9k

点赞数

文章标签：自然语言处理神经网络深度学习

本文链接：https://blog.csdn.net/xueyuyuewu/article/details/107550424

版权

kenlm python模块详解

1.导入模型

import kenlm
model= kenlm.LanguageModel("a.bin")
a.bin 是训练的统计语言模型

2.打分

1. ** model.score()函数**

score=model.score(sentence, bos=True, eos=True)
sentence：如果句子是汉语，那么需要将句子分词
bos,eos：句子的开头和结尾加上标记
model.score():是log(p(sentence)),p(sentence)是0-1之间的数值，取对数（底数是10）之后，为负数，p(sentence)越大越好，取对数之后仍是越大越好

2. ** model.full_scores()函数**

total=0.0
for score, _, _ in model.full_scores(sentence,bos=True, eos=True):
  	total+=score
total的结果和model.score()得分是相同的
total==model.score(sentence,bos=True, eos=True)
sentence:同上
bos,eos:同上
score:是每个预测值的对数概率，所有对数概率相加就是句子的概率
score=log(p(<s>/a0))...
total=log(p(a0a1a2a3))
p(a0a1a2a3)=p(<s>/a0)×p(<s>,a0/a1)×p(<s>,a0,a1/a2)×p(<s>,a0,a1,a2/a3)×p(<s>,a0,a1,a2,a3/</s>)
log(p(a0a1a2a3))=log(p(<s>/a0))+log(p(<s>,a0/a1))+log(p(<s>,a0,a1/a2))+log(p(<s>,a0,a1,a2/a3))+log(p(<s>,a0,a1,a2,a3/</s>))

3. ** model.perplexity()函数**

score=model.perplexity(sentence, bos = True, eos = Ture)
score：代表一个句子的困惑度

4. ** 三者之间的关系**
full_scores计算score
在这里插入图片描述结果：误差很小
full_scores计算perplexity
方法1：

在这里插入图片描述

方法2

在这里插入图片描述

xueyuyuewu

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
kenlm python模块详解

kenlm python模块详解1.导入模型import kenlmmodel= kenlm.LanguageModel(“a.bin”)a.bin 是训练的统计语言模型2.打分2.1 model.score()函数score=model.score(sentence, bos=True, eos=True)sentence：如果句子是汉语，那么需要将句子分词bos,eos：句子的开头和结尾加上标记model.score():是log(p(sentence)),p(sentence)是0
复制链接

扫一扫