自然语言处理-统计语言模型（数学之美）

最新推荐文章于 2024-07-17 10:18:40 发布

一夜了

最新推荐文章于 2024-07-17 10:18:40 发布

阅读量2k

点赞数 3

分类专栏：机器学习及深度学习相关 NLP 文章标签：自然语言处理数学语言统计语言模型二元模型

本文链接：https://blog.csdn.net/yiyele/article/details/78121386

版权

机器学习及深度学习相关同时被 2 个专栏收录

36 篇文章 7 订阅

订阅专栏

NLP

33 篇文章 11 订阅

订阅专栏

简述

一个句子是否合理，就看他的可能性大小如何。
概括来说：假定S表示某一个有意义的句子，由一连串特定顺序排列的词 $w_1,w_2,...,w_n$ 组成，这里的n表示句子的长度。则概率P(S)表示上面句子的合理性。

P (S) = P (w 1, w 2, . . ., w n)

$P(S)=P(w_1,w_2,...,w_n)$
利用条件概率公式：

P (w 1, w 2, . . ., w n) = P (w 1) P (w 2 | w 1) P (w 3 | w 1, w 2) . . . P (w n | w 1, w 2, . . ., w n - 1)

$P(w_1,w_2,...,w_n)=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)...P(w_n|w_1,w_2,...,w_{n-1})$
上式中，

P(w1) $P(w_1)$ 表示第一个词出现的概率，

P(w2|w1) $P(w_2|w_1)$ 是在已知第一个词的前提下，第二个词出现的额概率，以此类推。简答的看一下上面的公式，可以发现除了

P(w1) $P(w_1)$ 以及后面的

P(w2|w1) $P(w_2|w_1)$ 比较好算以外，其他的项计算难度都比较大。
俄国科学家马尔科夫给出了一个假设—–假设任意一个词

wt $w_t$ 出现的概率只同它前面的词

wt−1 $w_{t-1}$ 有关。于是上面的公式就可以简化为：

P (w 1, w 2, . . ., w n) = P (w 1) P (w 2 | w 1) P (w 3 | w 2) . . . P (w n | w n - 1)

$P(w_1,w_2,...,w_n)=P(w_1)P(w_2|w_1)P(w_3|w_2)...P(w_n|w_{n-1})$
上式对应的统计语言模型是 二元模型。
对于上面公式的求解，可以利用贝叶斯公式：

P (w i | w i - 1) = P (w i - 1, w i) / P (w i - 1)

$P(w_i|w_{i-1})=P(w_{i-1},w_i)/P(w_{i-1})$
其中

P(wi−1,wi) $P(w_{i-1},w_i)$ 可以用样本的相对频率(样本数量足够)来统计。具体公式如下：

P (w i - 1, w i) = N (w i - 1, w i) / N (w i - 1)

$P(w_{i-1},w_i)= N(w_{i-1},w_i) / N(w_{i-1})$
其中

N(wi−1,wi) $N(w_{i-1},w_i)$ 代表在样本中

wi−1,wi $w_{i-1},w_i$ 和前后相邻出现了多少次。

N(wi−1) $N(w_{i-1})$ 表示在样本中

wi−1 $w_{i-1}$ 出现了多少次。

延伸

高阶语言模型：假定文本中的没个词 $w_i$ 和前面的N-1个词有关，而与更前面的词无关，这样当前词 $w_i$ 的概率只取决于前面N-1个词 $P(w_{i-N+1},w_{i-N+2},...,w_{i-1})$ ，因此：

$P (w i | w 1, w 2, . . ., w i - 1) = P (w i | w i - N + 1, w i - N + 2, . . ., w i - 1)$ $P(w_i|w_1,w_2,...,w_{i-1})=P(w_i|w_{i-N+1},w_{i-N+2},...,w_{i-1})$
上式对应的就是N元模型（N-Gram Model）.
对于上面介绍的模型，比如说二元模型，假设样本中 $N(w_i,w_{i-1})$ 出现的词数为0，这样的话能否说明 $P(w_i|w_{i-1})$ 概率为0。答案是否定的。对于未出现的事件，我们怎么处理？？1953年古德和图灵给出了一个概率计算公式。
古德-图灵估计得原理：对于没有看见的事件，我们不能认为它发生的概率就是零，因此我们从概率的总量中，分配一个很小的比例给这些没有看见的事件。这样一来，看见的那些事件的概率总和就要小于1了，因此，需要将所有看见的事件概率调小一点。至于小多少，要根据“越是不可信的统计折扣越多”的方法进行。
举例：假定在语料库中出现r次的词有 $N_r$ 个，特别的，未出现的词数量为 $N_0$ 。语料库的大小为N。那么：
$N = \sum r = 1 \infty r N r$ $N = \sum_{r=1}^\infty rN_r$
出现r次的词在整个语料库中的相对频率则是 $rN_r/N$ ,如果不做任何优化处理，就以这个相对频度作为这些词的概率估计。古德-图灵估计按照下面的公式计算 $d_r$ :
$d r = (r + 1) N r + 1 / N r$ $d_r=(r+1)N_{r+1}/N_r$
显然:
$\sum r d r N r = N$ $\sum_r d_rN_r=N$
一般来说，出现一次的词的数量比出现两次的多，出现两次的比出现三次的多。这种规律成为zipf规律。所以r越大，词的数量 $N_r$ 越小，即 $N_{r+1}<N_r$ ，因此，一般情况下， $d_r<r$ ,而 $d_0>0$ 。这样的话就给未出现的词赋予了一个很小的非零值，从而解决了零概率的问题，同时下调了出现频率很低的词的概率。当然在实际应用中，一般对出现次数超过某个阈值的词，频率不下调，只对出现次数低于这个阈值的词，频率才下调，下调得到的频率总和给未出现的词。这样子的话出现r次的词的概率估计为 $d_r/N$ 。
按照上面的介绍，二元组 $(w_{i-1},w_i)$ 的条件概率估计 $P(w_i|w_{i-1})$ 也可以做同样的处理。对于二元组来说，所有可能的情况的概率总和应该为1，即：
$\sum w i \in V P (w i | w i - 1) = 1$ $\sum_{w_i\in V}P(w_i|w_{i-1})=1$
对于出现次数少的二元组，按照古德-图灵的方法打折扣：
$P (w i | w i - 1) = ⎧ ⎩ ⎨ ⎪ ⎪ f (w i | w i - 1) f g t (w i | w i - 1) Q (w i - 1) f (w i) i f N (w i - 1, w i) \geq T i f 0 \leq N (w i - 1, w i) \leq T o t h e r w i s e$ $P(w_i|w_{i-1})= \left\{ \begin{array}{rcl} f(w_i|w_{i-1}) & & {if \ N(w_{i-1},w_i)\geq T}\\ f_{gt}(w_i|w_{i-1}) & & {if \ 0 \leq N(w_{i-1},w_i)\leq T}\\ Q(w_{i-1})f(w_i) & & {otherwise}\\ \end{array} \right.$
其中， $f_{gt}()$ 表示经过古德-图灵估计后的相对频率，而
$Q (w i - 1) = (1 - \sum w i s e e n P (w i | w i - 1)) / \sum w i u n s e e n f (w i)$ $Q(w_{i-1})=(1-\sum_{w_i \ seen}P(w_i|w_{i-1}))/\sum_{w_i \ unseen}f(w_i)$
这种平滑的方式，最早由IBM的数学家卡茨提出，故称为卡茨退避法。