信息论中的各种熵

最新推荐文章于 2021-03-25 19:37:55 发布

Young_Gy

最新推荐文章于 2021-03-25 19:37:55 发布

阅读量5.9k

点赞数 2

文章标签：信息论熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/young_gy/article/details/69666014

版权

本文简单介绍了信息论中的各种熵，包括自信息、熵；联合熵、条件熵、互信息；KL散度、交叉熵。并在最后用信息论中的交叉熵推导了逻辑回归，得到了和最大似然法相同的结果。

这里写图片描述

熵

熵是信息的关键度量，通常指一条信息中需要传输或者存储一个信号的平均比特数。熵衡量了预测随机变量的不确定度，不确定性越大熵越大。

针对随机变量 $X$ ，其信息熵的定义如下：

H (X) = E [log 2 (X)] = \sum - p (x) log 2 (p (x))

$H(X) = E[\log_2 (X)] = \sum -p(x) \log_2 (p(x))$

信息熵是信源编码中，压缩率的下限。当我们使用少于信息熵的信息量做编码，那么一定有信息的损失。

联合熵

联合熵是一集变量之间不确定的衡量手段。

H (X, Y) = \sum \sum - p (x, y) log (p (x, y))

$H(X,Y) = \sum \sum -p(x,y) \log(p(x,y))$

条件熵

条件熵描述变量Y在变量X确定的情况下，变量Y的熵还剩多少。

H (Y | X) = \sum \sum - p (x, y) log (p (y | x))

$H(Y|X) = \sum \sum -p(x,y) \log(p(y|x))$

联合熵和条件熵的关系是：

H (X, Y) = H (X) + H (Y | X) = H (Y) + H (X | Y) = H (Y, X)

$H(X,Y) = H(X) +H(Y|X) = H(Y) + H(X|Y) = H(Y,X)$

自信息

自信息表示概率空间中与单一事件或离散变量的值相关的信息量的量度。

I (x) = - log (p (x))

$I(x) = -\log(p(x))$

平均的自信息就是信息熵。

H (X) = E [log 2 (X)] = \sum - p (x) log 2 (p (x))

$H(X) = E[\log_2 (X)] = \sum -p(x) \log_2 (p(x))$

互信息

两个随机变量的互信息，是变量间相互依赖性的量度，不同于相关系数，互信息不限于实值随机变量，其更加一般。

I (X; Y) = \sum \sum - p (x, y) log (p ( x ) p ( y ) p ( x , y ))

$I(X;Y) = \sum\sum -p(x,y) \log(\frac{p(x)p(y)}{p(x,y)})$

这里写图片描述

I (X; Y) = H (X) - H (X | Y) = H (Y) - H (Y | X) = H (X) + H (Y) - H (X, Y) = H (X, Y) - H (X | Y) - H (Y | X)

$\begin{split} I(X;Y) &= H(X)-H(X|Y) \\ &= H(Y)-H(Y|X) \\ &=H(X)+H(Y)-H(X,Y) \\ &=H(X,Y)-H(X|Y)-H(Y|X) \end{split}$

其意义为，若我们想知道Y包含多少X的信息，在尚未得到 Y之前，我们的不确定性是 H(X)，得到Y后，不确定性是H(X|Y)。所以一旦得到Y后，我们消除了 H(X)-H(X|Y)的不确定量，这就是Y对X的信息量。

KL散度(信息增益)

KL散度，又称为相对熵（relative entropy）、信息散度（information divergence）、信息增益（information gain）。

KL散度是两个概率分布P和Q差别非对称性的度量。KL散度用来度量基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下，P表示数据的真实分布，Q表述数据的模型分布。

D K L (P | | Q) = \sum i P (i) log P ( i ) Q ( i )

$D_{KL} (P||Q)= \sum_i P(i) \log \frac{P(i)}{Q(i)}$

交叉熵

交叉熵衡量了在真实分布是P的情况的情况下，使用分布Q去编码数据，需要的平均比特。

H (p, q) = E p [- log q] = H (p) + D k l (p | q)

$H(p,q) = E_p [-\log q] = H(p) + D_{kl} (p|q)$

H (p, q) = \sum - p (x) log (q (x))

$H(p,q) = \sum -p(x)\log(q(x))$

交叉熵与逻辑回归的关系如下：

逻辑回归中：

$q_{y=1} = \hat{y} = g(wx)$
$q_{y=0} = 1-\hat{y} = 1-g(wx)$

数据的真实分布中：

$p_{y=1} = y$
$p_{y=0} = 1-y$

因此，可以用交叉熵去衡量估计分布q与真实分布p的相似性，交叉熵越小那么越相似。

H (p, q) = \sum - p (x) log q (x) = - y log (y^) - (1 - y) log (1 - y^)

$H(p,q) = \sum -p(x) \log q(x) = -y\log(\hat{y})-(1-y)\log(1-\hat{y})$

因此，损失函数为，得到了和最大似然推导相同的结果：

L (w) = 1 N \sum n = 1 N H (p n, q n) = 1 N \sum n = 1 N [- y log (y^) - (1 - y) log (1 - y^)] = 1 N \sum n = 1 N log (1 + exp (- y n w x n))

$\begin{split} L(w) &= \frac{1}{N} \sum_{n=1}^N H(p_n,q_n) \\ &= \frac{1}{N} \sum_{n=1}^N [- y\log(\hat{y})-(1-y)\log(1-\hat{y})] \\ &= \frac{1}{N} \sum_{n=1}^N \log(1+\exp(-y_nw x_n)) \end{split}$

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
信息论中的各种熵

本文简单介绍了信息论中的各种熵，包括自信息、熵；联合熵、条件熵、互信息；KL散度、交叉熵。并在最后用信息论中的交叉熵推导了逻辑回归，得到了和最大似然法相同的结果。
复制链接

扫一扫

博客等级

码龄10年

151
原创

362
点赞

1508
收藏

517
粉丝

关注

私信

热门文章

最新评论

扩展卡尔曼滤波EKF与多传感器融合
qq_35210952: 这里题主应该再加个解释 1、这里用ekf的原因是毫米波的状态转移方程是非线性的。 2、激光雷达状态转移是线性的，所以激光雷达用kf更新 3、两类的预测为什么是相同的，因为都是在同一个状态空间下预测的,,所以两类就统一在一起，没必要单独算一遍，增加计算量（我猜的）。再看对当前状态的修正，用的就有区别了，因为当前状态获取毫米波雷达的数据不是xyz
扩展卡尔曼滤波EKF与多传感器融合
qq_35210952: 如果是radar的用KF修正，是LIDAR用EKF修正，这是咋设计的呢？下面的图给出的是EKF的效果，都混在一起咋看的效果呢
局部放电的特征选择
煎饼侠797: 跪求实验数据集227703401@qq.com
局部放电的特征选择
我是个可爱小白菜: 求数据集
局部放电的特征选择
Selling_dusk: 跪求试验数据1255906008@qq.com

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。