熵,交叉熵,相对熵(KL散度)

先插入一个链接可视化信息论,简单明了很容易看懂

什么是信息熵

信息熵是度量随机变量不确定度的指标,信息熵越大意味着随机变量不确定度越高,意味着系统的有序程度越低。他的定义
如果随机变量 P={x1,x2,...,xn} ,他的概率 P{P=xi},i{1,2,..,n} ,则随机变量 P={x1,x2,...,xn} 的熵定义为

H(P)=i=1np(xi)log2p(xi)

什么是交叉熵

交叉熵(Cross Entropy),主要用于度量两个概率分布间的差异性信息。对一个离散随机变量的两个概率分布P和Q来说,他们的交叉熵定义为:

H(P,Q)=i=1np(xi)log2q(xi)

特别的在机器学习中,P代表真实分布,Q代表模型拟合分布,交叉熵衡量两个分布之间的差异,交叉熵越小,Q就与就接近真实分布P,这也是为什么我们用最小化交叉熵损失来学习模型,最简单的逻辑回归的损失函数:
L(θ)=1mi=1mj=01p(y(i)=j|xi)log2q(y^=j|xi,θ),(x(i),y(i))i{1,2,3,...,m}

其中 (x(i),y(i)) 表示真实数据和标签。 y^ 表示模型输出标签。 q(y^=0|xi,θ)=11+eθTxi 表示模型分布输出 y^=0 的概率, q(y^=0|xi,θ)=111+eθTxi 表示模型分布输出 y^=1 时概率。 p(y(i)=j|xi)=1{y(i)=j} 。把其中j取值到n就是softmax分类损失了。

什么是相对熵

对一个离散随机变量的两个概率分布P和Q来说,他们的KL散度定义为:

H(P||Q)=i=1np(xi)log2p(xi)q(xi)

相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain),是描述两个概率分布P和Q差异的一种方法。它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。
有人将KL散度称为KL距离,但事实上,KL散度并不满足距离的概念,因为:
1)KL散度不是对称的;
2)KL散度不满足三角不等式。。
特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布,模型分布。
KL距离在信息检索领域,以及统计自然语言方面有重要的运用。

三者间的关系

H(P||Q)=H(P,Q)H(P)=i=1np(xi)log2q(xi)(i=1np(xi)log2p(xi))=i=1np(xi)log2p(xi)q(xi)

简单理解下, H(P) 理解为真实分布编码长度, H(P,Q) 理解为用Q模拟真实分布的编码长度, H(P||Q) 理解为模拟到真实的差距。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值