数据平滑技术|自然语言

最新推荐文章于 2024-04-27 13:31:32 发布

比奇堡咻飞兜

最新推荐文章于 2024-04-27 13:31:32 发布

阅读量1.2k

点赞数 3

分类专栏：自然语言文章标签：概率论机器学习自然语言处理平滑技术

本文链接：https://blog.csdn.net/weixin_46308081/article/details/120849332

版权

自然语言专栏收录该内容

6 篇文章 6 订阅

订阅专栏

写在前面

$\bullet$ 因为对于N-gram模型来说，由于语料库过小或者词语过于专业可能会出现概率为0的情况。但是这个词语肯定会有出现的概率不可能为0，为了解决这类零概率问题，引入了平滑技术。

$\bullet$ “平滑”处理的基本思想是“劫富济贫”，即提高低概率降低高概率，尽量使概率分布趋于平均。

1.加法平滑

1.1加1法

先来介绍一种简单的情况，对于二元语法（2-gram或者 Bigram）来说，我们可以使用一种非常简单的方法，即“加一法”。

公式如下：
${\color{Violet}P(w_{i-1}|w_{i})=\frac{P(w_{i-1}w_{i})+1}{P(w_{i})+|V|}}$

其中 ${\color{Red}P(w_{i-1}w_{i})}$ 是 $\color{Red}w_{i-1}w_{i}$ 同时出现的概率， $\color{Red}P(w_{i})$ 是 $\color{Red}w_{i}$ 出现的概率， $\color{Red}|V|$ 是所有词的个数， $\color{Red}P(w_{i-1}|w_{i})$ 是在 $\color{Red}w_{i}$ 的概率下前面出现 $\color{Red}w_{i-1}$ 的概率。

1.2加法平滑方法

在N-gram模型中，常见的做法是在N元对出现的次数上加一个常数 $\delta$ ，在分母上加上 $\delta|V|$ ，其余和二元语法完全相同。

公式如下:
${\color{Violet}P(w_{i-n+1}^{i-1}|w_{i})=\frac{P(w_{i-n+1}^{i-1}w_{i})+\delta}{P(w_{i})+\delta|V|}}$

其中 $\color{Red}w_{i-n+1}^{i-1}$ 表示 $\color{Red}w_{i}$ 前面的 $N$ 个词。

2.古德-图灵(Good-Turing)估计法

对于N-gram模型中出现了r次的 $\color{Red}w_{i-n+1}^{i}$ ，我们把它估计为
$\color{Violet}r^{*}=(r+1)\frac{n_{r+1}}{n_{r}}$

其中 $\color{Red}n_{r}$ 表示出现了r次的N元对的个数，所以N-gram中出现了次数为r的N元对 $\color{Red}w_{i-n+1}^{i}$ 的出现概率为：
${\color{Violet}P_{GT}(w_{i-n+1}^{i})=\frac{r^{*}}{\sum_{r=0}^{\infty}r^{*}}}$

古德-图灵估计公式中缺乏利用低元模型对高元模型插值的思想，通常不单独使用，而作为其他平滑算法中的一个计算工具。

3.回退平滑(Katz回退法)

当某一事件在样本中的概率大于阈值K（通常取0或1）时，运用最大似然估计的减值法来估计其概率。否则使用低阶的，即用 $(n - 1) g r a m$ 的概率来替代 $n - g r a m$ 的概率，这种替代受归一化因子 $α$ 的作用。

公式如下：

${\color{Violet}P_{katz}(w_{i-1}^{i})=\left\{\begin{matrix} d_{r}\frac{c(w_{i-1}^{i})}{c(w_{i-1})} & c(w_{i-1}w_{i})=r>0\\ \alpha (w_{i-1})P_{ML}(w_{i}) & c(w_{i-1}w_{i})=r=0 \end{matrix}\right.}$

其中 r 表示出现次数， $\color{Red}P_{ML}(w_{i})$ 表示 $w_{i}$ 的最大似然估计概率，折扣率 $\color{Red}d_{r}$ 近似等于 $\color{Red}\frac{r^{*}}{r}$ ，减值由 Good-Turing 估计方法预测。

4.线性插值平滑(Jelinek-Mercer)

利用低阶N-gram模型对高阶N-gram 模型进行线性插值。

公式如下：
${\color{Violet}P_{int \ erp}(w_{i}|w_{i-n+1}^{i-1})=\lambda_{w_{i-n+1}^{i-1}}*P_{ML}(w_{i-1}|w_{i-n+1}^{i-1})+(1-\lambda)*P_{int \ erp}(w_{i}|w_{i-n+2}^{i-1})}$

N-gram模型可以递归地定义为：由最大似然估计得到的N-gram模型和线性插值的(N-1)-gram模型。

比奇堡咻飞兜

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据平滑技术|自然语言

目录写在前面1.加法平滑1.1加1法1.2加法平滑方法2.古德-图灵(Good-Turing)估计法3.回退平滑(Katz回退法)4.线性插值平滑(Jelinek-Mercer)写在前面∙\bullet∙ 因为对于N-gram模型来说，由于语料库过小或者词语过于专业可能会出现概率为0的情况。但是这个词语肯定会有出现的概率不可能为0，为了解决这类零概率问题，引入了平滑技术。∙\bullet∙ “平滑”处理的基本思想是“劫富济贫”，即提高低概率降低高概率，尽量使概率分布趋于平均。1.加法平滑1.1
复制链接

扫一扫