信息论中的各种熵

原创 2017年04月09日 08:30:55

本文简单介绍了信息论中的各种熵,包括自信息、熵;联合熵、条件熵、互信息;KL散度、交叉熵。并在最后用信息论中的交叉熵推导了逻辑回归,得到了和最大似然法相同的结果。

这里写图片描述

熵是信息的关键度量,通常指一条信息中需要传输或者存储一个信号的平均比特数。熵衡量了预测随机变量的不确定度,不确定性越大熵越大。

针对随机变量X,其信息熵的定义如下:

H(X)=E[log2(X)]=p(x)log2(p(x))

信息熵是信源编码中,压缩率的下限。当我们使用少于信息熵的信息量做编码,那么一定有信息的损失。

联合熵

联合熵是一集变量之间不确定的衡量手段。

H(X,Y)=p(x,y)log(p(x,y))

条件熵

条件熵描述变量Y在变量X确定的情况下,变量Y的熵还剩多少。

H(Y|X)=p(x,y)log(p(y|x))

联合熵和条件熵的关系是:

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=H(Y,X)

自信息

自信息表示概率空间中与单一事件或离散变量的值相关的信息量的量度。

I(x)=log(p(x))

平均的自信息就是信息熵。

H(X)=E[log2(X)]=p(x)log2(p(x))

互信息

两个随机变量的互信息,是变量间相互依赖性的量度,不同于相关系数,互信息不限于实值随机变量,其更加一般。

I(X;Y)=p(x,y)log(p(x)p(y)p(x,y))

这里写图片描述

I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)=H(X)+H(Y)H(X,Y)=H(X,Y)H(X|Y)H(Y|X)

其意义为,若我们想知道Y包含多少X的信息,在尚未得到 Y之前,我们的不确定性是 H(X),得到Y后,不确定性是H(X|Y)。所以一旦得到Y后,我们消除了 H(X)-H(X|Y)的不确定量,这就是Y对X的信息量。

KL散度(信息增益)

KL散度,又称为相对熵(relative entropy)、信息散度(information divergence)、信息增益(information gain)。

KL散度是两个概率分布P和Q差别非对称性的度量。KL散度用来度量基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下,P表示数据的真实分布,Q表述数据的模型分布。

DKL(P||Q)=iP(i)logP(i)Q(i)

交叉熵

交叉熵衡量了在真实分布是P的情况的情况下,使用分布Q去编码数据,需要的平均比特。

H(p,q)=Ep[logq]=H(p)+Dkl(p|q)

H(p,q)=p(x)log(q(x))

交叉熵与逻辑回归的关系如下:

逻辑回归中:

  • qy=1=y^=g(wx)
  • qy=0=1y^=1g(wx)

数据的真实分布中:

  • py=1=y
  • py=0=1y

因此,可以用交叉熵去衡量估计分布q与真实分布p的相似性,交叉熵越小那么越相似。

H(p,q)=p(x)logq(x)=ylog(y^)(1y)log(1y^)

因此,损失函数为,得到了和最大似然推导相同的结果:

L(w)=1Nn=1NH(pn,qn)=1Nn=1N[ylog(y^)(1y)log(1y^)]=1Nn=1Nlog(1+exp(ynwxn))

信息论:熵与互信息

http://blog.csdn.net/pipisorry/article/details/51695283这篇文章主要讲:熵, 联合熵(joint entropy),条件熵(conditional...
  • pipisorry
  • pipisorry
  • 2016年11月25日 21:18
  • 29650

信息论的熵

信息论的熵
  • hguisu
  • hguisu
  • 2014年05月28日 16:48
  • 35444

如何理解信息论中的各种熵?

信息论,机器学习中常用的熵的直观理解
  • PKU_Jade
  • PKU_Jade
  • 2017年04月20日 21:09
  • 690

我理解的信息论——自信息、熵、互信息

原文:http://blog.sina.com.cn/s/blog_5fc770cd0100ia5k.html 信息论    信息是关于事物的运动状态和规律的认识,它可以脱离具体的事物而被...
  • qtlyx
  • qtlyx
  • 2016年03月07日 14:30
  • 3680

解析信息论中的熵

定义:如果 X 是一个离散随机变量,它的取值空间为S, 那么X的熵(entropy)定义为 the average information in the outcomes of X produced ...
  • xiaopihaierletian
  • xiaopihaierletian
  • 2017年06月13日 20:46
  • 185

机器学习笔记十:各种熵总结

信息熵,联和熵,条件熵,相对熵,互信息
  • xierhacker
  • xierhacker
  • 2017年03月18日 19:15
  • 5677

各种熵

自信息量I(x)=-log(p(x)),其他依次类推。离散变量x的熵H(x)=E(I(x))=-∑xp(x)lnp(x)\sum\limits_{x}{p(x)lnp(x)}连续变量x的微分熵H(x)...
  • weiyudang11
  • weiyudang11
  • 2016年09月08日 10:29
  • 259

数据处理中使用的各种熵

信息论起源于解决通信问题,标志性论著是香农的《通信的数学原理》。随着信息技术的发展,信息论思想不断用于机器学习和数据处理领域,解决数据分析问题。 熵是信息论中最重要和基础的概念,是概率分布的泛函,表...
  • hunauchenym
  • hunauchenym
  • 2015年11月23日 11:36
  • 2200

信息论里的信息熵到底是什么含义?互信息的定义

让我们说人话!好的数学概念都应该是通俗易懂的。 信息熵,信息熵,怎么看怎么觉得这个“熵”字不顺眼,那就先不看。我们起码知道这个概念跟信息有关系。而它又是个数学模型里面的概念,一般而言是可以量化的。所...
  • ustcyy91
  • ustcyy91
  • 2016年11月29日 23:18
  • 2189

信息论、最大熵模型

七月在线4月机器学习算法班课程笔记——No.8 1. 统计学习基础回顾1.1 先验概率与后验概率  先验概率:根据以往经验和分析得到的概率,如全概率公式,它往往作为”由因求果”问题中的”因”出现。 ...
  • JoyceWYJ
  • JoyceWYJ
  • 2016年06月16日 15:03
  • 2971
收藏助手
不良信息举报
您举报文章:信息论中的各种熵
举报原因:
原因补充:

(最多只允许输入30个字)