自然语言处理学习笔记-lecture2-数学基础4-信息论

最新推荐文章于 2024-07-24 21:19:37 发布

尔呦

最新推荐文章于 2024-07-24 21:19:37 发布

阅读量177

点赞数

分类专栏：自然语言处理文章标签：自然语言处理学习机器学习

本文链接：https://blog.csdn.net/weixin_44994838/article/details/126797179

版权

自然语言处理专栏收录该内容

15 篇文章 5 订阅

订阅专栏

信息论

信息量

什么是信息量?假设我们听到了两件事，分别如下:

事件A:巴西队获得了2022年FIFA世界杯冠军。
事件B:中国队获得了2022年FIFA世界杯冠军。
仅凭直觉来说，显而易见事件B的信息量比事件A的信息量要大(也就是“大新闻”)。究其原因，是因为事件A发生的概率很大，事件B发生的概率很小。所以当越不可能的事件发生了，我们获得的信息量就越大，而越可能发生的事件发生了，我们获得的信息量就越小。
因此，信息量应该和事件发生的概率有关。

熵

如果 $X$ 是一个离散型随机变量，其概率分布为 $\mathscr{X}$ 。其中， $\mathscr{X}$ 表示随机变量所有取值的集合，则该随机变量的熵为:
$-\sum_{x \in \mathscr{X}}p(x)log_2p(x)$
我们约定 $0 log_2 0 = 0$ 。
熵表示信源每发出一个符号所提供的平均信息量。一个随机变量的熵越大，其不确定性越大，相应地正确估计其值的可能性就越小。越不确定的随机变量需要越大的信息量来确定其值。

相对熵

两个概率分布 $p (x)$ 和 $q (x)$ 的相对熵也称为KL散度(英文全称:Kullback- Leibler divergence)，定义如下:
$\sum_{x \in \mathscr{X}}p(x)log\frac{p(x)}{q(x)}$
约定 $\infty$ 。
相对熵通常用于衡量两个概率分布的差距。当两个随机分布相同时，其相对熵为0。当两个随机分布的差别增加时，其相对熵也增加。

交叉熵

相对熵的公式可以表述为
$\begin{aligned} KL(p||q) &= \sum_xp(x)\log p(x) - \sum_xp(x) \log q(x) \\ &= -H(p(x)) - \sum_xp(x) \log q(x) \end{aligned}$
等式的前一部分是 $p$ 的熵，而后一部分则是交叉熵:
$-\sum_xp(x) \log q(x)$
在人工智能中，往往需要评估模型分布和真实分布之间的差距，使用 $K L$ 散度非常合适。但由于 $K L$ 散度的前一部分跟真实分布相关，在优化过程中不变化，因此一般使用交叉熵作为损失函数并评估模型。