有关熵的几个概念 及 最大似然和交叉熵的一致性

本文介绍了随机事件的信息量,特别是自信息的概念,它描述了不确定性的程度。接着,讨论了熵、联合熵、互信息、条件熵和交叉熵等信息论中的关键概念。此外,还探讨了交叉熵与最大似然损失函数的一致性,特别是在二分类问题中的应用。
摘要由CSDN通过智能技术生成
随机事件的信息量

  为了描述一个随机事件的信息量,定义了自信息。
  自信息表示不确定性的程度。
  一个事件确定发生,是没有信息量的;而一个事件发生的概率越小,则其信息量越大。
  未知所带来的不确定性,就是自信息要描述的目标。
  自信息:  

I(x)=logi1p(x)
   notice:这里的自信息量并不代表信息作用的大小。一般以2为基底。

  熵:自信息的期望。  

H(x)=ilog21p(xi)
  所有可能情况的信息量的加权均值。(各种不确定情况的平均情况)
  同时,熵可以表示系统或者变量的混乱程度,越混乱,熵越大。均匀分布时,熵最大。
   熵在均匀分布时取得最大值,证明如下:
  已知:  
H(x)=iln1p(xi),s.t.ip(xi)=1
  由拉格朗日法构造函数:
F(x)=iln1p(xi)+λ(ip(xi)1)

  分别对 p(xi) λ 求偏导数:  
Fp(xi)=[ln1p(xi)+p(xi)11p(xi)1p2(xi)]+λ=lnp(xi)1+λ=0Fλ=ip(xi)1=0
  求得:  
p(xi)=eλ1ip(xi)1=0=>neλ1=1=>p(xi)=1n
  得证,熵当且仅当 p(xi)=1n 时,存在极值,这里是极大值。
  在信息论与编码理论中,熵描述一个符号变量的可被编码的程度。
   举个例子,计算自信息和熵。
   x 满足二项分布, xB(n,p=0.8) , 则 p(x=1)=0.8
  其自信息为 I(x=1)=log213/5
  其熵为 H(x)=35log2135+25log2125
  若对抽样样本,大概估计其熵和自信息。
   x1,1,1,1,0 , 则自信息 I(x=1)=log253
  其熵:
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值