语言模型

本文介绍了语言模型的基础,包括由来、Chain rule、马尔科夫假设以及不同级别的N-gram。讨论了如何估计语言模型的概率,如Unigram、Bigram和N-gram,并提出了评估模型好坏的Perplexity指标。此外,还详细讲解了平滑技术,如Add-one、Add-K和Interpolation平滑,最后提到了Good-Turing平滑方法。
摘要由CSDN通过智能技术生成

语言模型(LM,language Model)

由来

在做机器翻译的过程中,如下图,假设需要翻译“今晚的课程真有意思”,首先先进行分词(今晚|的|课程|有意思)然后依次翻译成英文(Tonight|of|the course|interesting),然后将这些单词进行排列组合,总共会有 4 ! 4! 4!个结果,然后利用语言模型(LM,language Model)来计算这 4 ! 4! 4!个句子的概率,然后选择概率醉最大的一句话进行输出。在这里插入图片描述

1.Chain rule以及马尔科夫假设

1.1Chain rule

预备知识: P ( A B ) = P ( A ∣ B ) ⋅ P ( B ) = P ( B ∣ A ) ⋅ P ( A ) P(AB)=P(A|B) \cdot P(B)=P(B|A) \cdot P(A) P(AB)=P(AB)P(B)=P(BA)P(A)
Chain rule:
P ( A B C D ) = P ( A ) ⋅ P ( B ∣ A ) ⋅ P ( C ∣ A B ) ⋅ P ( D ∣ A B C ) = P ( A B ) ⋅ P ( C ∣ A B ) ⋅ P ( D ∣ A B C ) = P ( A B C D ) \begin{aligned} {P(ABCD)}&=P(A) \cdot P(B | A) \cdot P(C | AB) \cdot P(D | ABC) \\ &=P(AB) \cdot P(C | AB) \cdot P(D | ABC) \\ &=P(ABCD) \end{aligned} P(ABCD)=P(A)P(BA)P(CAB)P(DABC)=P(AB)P(CAB)P(DABC)=P(ABCD)
同理,
P ( w 1 w 2 ⋯ w n ) = P ( w 1 ) ⋅ P ( w 2 ∣ w 1 ) ⋯ P ( w n ∣ w 1 w 2 ⋯ w n − 1 ) P(w_{1}w_{2}\cdots w_{n})=P(w_{1}) \cdot P(w_{2} | w_{1}) \cdots P(w_{n} | w_{1}w_{2}\cdots w_{n-1}) P(w1w2wn)=P(w1)P(w2w1)P(wnw1w2wn1)
语言模型中的Chain rule:
P ( 今 天 , 是 , 春 节 ) = P ( 今 天 ) ⋅ P ( 是 ∣ 今 天 ) ⋅ P ( 春 节 ∣ 今 天 , 是 ) P(今天,是,春节)=P(今天) \cdot P(是 | 今天) \cdot P(春节 | 今天,是) P(,,)=P()P()P(,)
如下图所示,P(休息|今天,是,春节,我们,都) 这个概率在文章中可能出现的概率是1/2,而P(运动|今天,是,春节,) 在文章中出现的概率却是0,因此对于那些很长的句子来说,其出现的概率就大概率为0,从而引出了马尔科夫假设。在这里插入图片描述
马尔科夫假设:
一阶:
P ( w 1 w 2 w 3 w 4 ⋯ w n ) = P ( w 1 ) ⋅ P ( w 2 ∣ w 1 ) ⋅ P ( w 3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值