熵，交叉熵，相对熵（KL散度）

最新推荐文章于 2024-08-09 12:53:46 发布

zshfeng

最新推荐文章于 2024-08-09 12:53:46 发布

阅读量2.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zshfeng/article/details/77972651

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

先插入一个链接可视化信息论，简单明了很容易看懂

什么是信息熵

信息熵是度量随机变量不确定度的指标，信息熵越大意味着随机变量不确定度越高，意味着系统的有序程度越低。他的定义
如果随机变量 $P=\{x_1,x_2,...,x_n\}$ ,他的概率 $P\{P=x_i\},i\in \{1,2,..,n\}$ ，则随机变量 $P=\{x_1,x_2,...,x_n\}$ 的熵定义为

H (P) = - \sum i = 1 n p (x i) l o g 2 p (x i)

$H\left( P\right)=-\sum_{i=1}^n p(x_i)log_2 p(x_i)$

什么是交叉熵

交叉熵（Cross Entropy），主要用于度量两个概率分布间的差异性信息。对一个离散随机变量的两个概率分布P和Q来说，他们的交叉熵定义为：

H (P, Q) = - \sum i = 1 n p (x i) l o g 2 q (x i)

$H\left(P,Q\right)=-\sum_{i=1}^n p(x_i)log_2 q(x_i)$
特别的在机器学习中，P代表真实分布，Q代表模型拟合分布，交叉熵衡量两个分布之间的差异，交叉熵越小，Q就与就接近真实分布P，这也是为什么我们用最小化交叉熵损失来学习模型，最简单的逻辑回归的损失函数：

L(θ)=−1m∑i=1m∑j=01p(y(i)=j|xi)log2q(y^=j|xi,θ),(x(i),y(i))，i∈{1,2,3,...,m}

$L (\theta)=-\frac{1}{m} \sum_{i=1}^m \sum_{j=0}^1 p(y^{(i)}=j|x_i)log_2 q(\hat y =j|x_i,\theta),(x^{(i)},y^{(i)})，i\in \{1,2,3,...,m\}$
其中

(x(i),y(i)) $(x^{(i)},y^{(i)})$ 表示真实数据和标签。

y^ $\hat y$ 表示模型输出标签。

q(y^=0|xi,θ)=11+e−θTxi $q(\hat y =0|x_i,\theta)=\frac{1}{1+e^{-\theta^T x_i }}$ 表示模型分布输出

y^=0 $\hat y =0$ 的概率，

q(y^=0|xi,θ)=1−11+e−θTxi $q(\hat y =0|x_i,\theta)=1-\frac{1}{1+e^{-\theta^T x_i }}$ 表示模型分布输出

y^=1 $\hat y =1$ 时概率。

p(y(i)=j|xi)=1{y(i)=j} $p(y^{(i)}=j|x_i)=1\{y^{(i)}=j\}$ 。把其中j取值到n就是softmax分类损失了。

什么是相对熵

对一个离散随机变量的两个概率分布P和Q来说，他们的KL散度定义为：

H (P | | Q) = \sum i = 1 n p (x i) l o g 2 p ( x i ) q ( x i )

$H\left( P||Q\right)=\sum_{i=1}^n p(x_i)log_2 \frac {p\left( x_i\right)} {q\left( x_i\right)}$

相对熵（relative entropy）又称为KL散度（Kullback–Leibler divergence，简称KLD），信息散度（information divergence），信息增益（information gain），是描述两个概率分布P和Q差异的一种方法。它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。
有人将KL散度称为KL距离，但事实上，KL散度并不满足距离的概念，因为：
1）KL散度不是对称的；
2）KL散度不满足三角不等式。。
特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布,模型分布。
KL距离在信息检索领域，以及统计自然语言方面有重要的运用。

三者间的关系

H (P | | Q) = H (P, Q) - H (P) = - \sum i = 1 n p (x i) l o g 2 q (x i) - (- \sum i = 1 n p (x i) l o g 2 p (x i)) = \sum i = 1 n p (x i) l o g 2 p ( x i ) q ( x i )

$H\left( P||Q\right)=H(P,Q)-H(P)=-\sum_{i=1}^n p(x_i)log_2 q(x_i)-(-\sum_{i=1}^n p(x_i)log_2 p(x_i))=\sum_{i=1}^n p(x_i)log_2 \frac {p\left( x_i\right)} {q\left( x_i\right)}$
简单理解下，

H(P) $H(P)$ 理解为真实分布编码长度，

H(P,Q) $H(P,Q)$ 理解为用Q模拟真实分布的编码长度，

H(P||Q) $H(P||Q)$ 理解为模拟到真实的差距。