语言模型

最新推荐文章于 2024-04-02 14:47:27 发布

S_ssssssk

最新推荐文章于 2024-04-02 14:47:27 发布

阅读量287

点赞数

文章标签： nlp

本文链接：https://blog.csdn.net/weixin_43859153/article/details/104341623

版权

本文介绍了语言模型的基础，包括由来、Chain rule、马尔科夫假设以及不同级别的N-gram。讨论了如何估计语言模型的概率，如Unigram、Bigram和N-gram，并提出了评估模型好坏的Perplexity指标。此外，还详细讲解了平滑技术，如Add-one、Add-K和Interpolation平滑，最后提到了Good-Turing平滑方法。

摘要由CSDN通过智能技术生成

语言模型(LM，language Model)

由来

在做机器翻译的过程中，如下图，假设需要翻译“今晚的课程真有意思”，首先先进行分词（今晚|的|课程|有意思）然后依次翻译成英文(Tonight|of|the course|interesting)，然后将这些单词进行排列组合，总共会有 $4!$ 个结果，然后利用语言模型(LM，language Model)来计算这 $4!$ 个句子的概率，然后选择概率醉最大的一句话进行输出。在这里插入图片描述

1.Chain rule以及马尔科夫假设

1.1Chain rule

预备知识： $\cdot P(B)=P(B|A) \cdot P(A)$
Chain rule：
$\begin{aligned} {P(ABCD)}&=P(A) \cdot P(B | A) \cdot P(C | AB) \cdot P(D | ABC) \\ &=P(AB) \cdot P(C | AB) \cdot P(D | ABC) \\ &=P(ABCD) \end{aligned}$
同理，
$P(w_{1}w_{2}\cdots w_{n})=P(w_{1}) \cdot P(w_{2} | w_{1}) \cdots P(w_{n} | w_{1}w_{2}\cdots w_{n-1})$
语言模型中的Chain rule：
$\cdot P(是 | 今天) \cdot P(春节 | 今天,是)$
如下图所示，P(休息|今天,是,春节,我们,都) 这个概率在文章中可能出现的概率是1/2，而P(运动|今天,是,春节,) 在文章中出现的概率却是0，因此对于那些很长的句子来说，其出现的概率就大概率为0，从而引出了马尔科夫假设。在这里插入图片描述
马尔科夫假设：
一阶：