信息论概述

8.1 概述

熵:不确定性的度量,类别不均匀程度的度量

最大熵:一种状态的平衡分布,可看作一种自然法则

互信息:随机变量相关性的度量

熵的相关定义:熵、条件熵、联合熵、相对熵、互信息

最大熵模型:求取类别后验概率分布p(y|x)

最小互信息模型:例如,独立成分分析

8.2 熵、最大熵

信息量(信息增益量):

  • I ( x k ) = l o g ( 1 p k ) = − l o g p k I(x_{k})=log(\frac{1}{p_{k}})=-logp_{k} I(xk)=log(pk1)=logpk
    • X = { x k ∣ k = 0 , ± 1 , . . . , ± N } ,   p k = P ( X = x k ) ,   0 ≤ p k ≤ 1 ,   ∑ k = − N N p k = 1 X=\{x_{k}|k=0,\pm1,...,\pm N \},\ p_{k}=P(X=x_{k}),\ 0\le p_{k}\le 1,\ \sum_{k=-N}^{N}p_{k}=1 X={xkk=0,±1,...,±N}, pk=P(X=xk), 0pk1, k=NNpk=1
  • 信息量性质:概率越小的状态,信息量越大
    • p k = 1 ,   I ( x k ) = 0 p_{k}=1,\ I(x_{k})=0 pk=1, I(xk)=0
    • 0 ≤ p k ≤ 1 ,   I ( x k ) ≥ 0 0\le p_{k}\le 1,\ I(x_{k})\ge 0 0pk1, I(xk)0
    • p k < p i ,   I ( x k ) > I ( x i ) p_{k}<p_{i},\ I(x_{k})>I(x_{i}) pk<pi, I(xk)>I(xi)

信息熵:

  • 信息量在全部数值域上的概率平均值
  • 离散熵: H ( x ) = E [ I ( x ) ] = ∑ k = − N k = N p k I ( x k ) = − ∑ k = − N k = N p k l o g p k H(x)=E[I(x)]=\sum_{k=-N}^{k=N}p_{k}I(x_{k})=-\sum_{k=-N}^{k=N}p_{k}logp_{k} H(x)=E[I(x)]=k=Nk=NpkI(xk)=k=Nk=Npklogpk
  • 微分熵: h ( x ) = − ∫ − ∞ ∞ p x ( x ) l o g p x ( x ) d x = − E [ l o g p x ( x ) ] h(x)=-\int_{-\infty }^{\infty}p_{x}(x)logp_{x}(x)dx=-E[logp_{x}(x)] h(x)=px(x)logpx(x)dx=E[logpx(x)]
    • 微分熵不是严格意义上的信息熵
    • 性质
      • 平移不变 h ( X + c ) = h ( X ) h(X+c)=h(X) h(X+c)=h(X)
      • 尺度变化
        • h ( c X ) = h ( X ) + l o g ∣ c ∣ h(cX)=h(X)+log|c| h(cX)=h(X)+logc
        • h ( A X ) = h ( X ) + l o g ∣ d e t ( A ) ∣ h(AX)=h(X)+log|det(A)| h(AX)=h(X)+logdet(A)
        • 其中,c为常数,A为矩阵,det(A)是矩阵A的行列式

8.3 互信息

条件信息量: L ( x ∣ y ) = l o g 1 p ( x ∣ y ) L(x|y)=log\frac{1}{p(x|y)} L(xy)=logp(xy)1

条件熵:

  • 给定y,X的条件熵 H ( X ∣ y ) = ∑ x p ( x ∣ y ) l o g 1 p ( x ∣ y ) H(X|y)=\sum_{x}p(x|y)log\frac{1}{p(x|y)} H(Xy)=xp(xy)logp(xy)1
  • 给定Y,X的条件熵: H ( X ∣ Y ) = ∑ y p ( y ) H ( X ∣ y ) = ∑ y p ( y ) ∑ x p ( x ∣ y ) l o g 1 p ( x ∣ y ) = ∑ y ∑ x p ( x , y ) l o g 1 p ( x ∣ y ) H(X|Y)=\sum_{y}p(y)H(X|y)=\sum_{y}p(y)\sum_{x}p(x|y)log\frac{1}{p(x|y)}=\sum_{y}\sum_{x}p(x,y)log\frac{1}{p(x|y)} H(XY)=yp(y)H(Xy)=yp(y)xp(xy)logp(xy)1=yxp(x,y)logp(xy)1

联合熵:

  • 联合熵密度: p ( x , y ) = p ( x ∣ y ) p ( y ) = p ( y ∣ x ) p ( x ) p(x,y)=p(x|y)p(y)=p(y|x)p(x) p(x,y)=p(xy)p(y)=p(yx)p(x)
  • 联合信息量: L ( x , y ) = l o g 1 p ( x , y ) L(x,y)=log\frac{1}{p(x,y)} L(x,y)=logp(x,y)1
  • 联合微分熵: H ( X , Y ) = ∑ y ∑ x p ( x , y ) l o g 1 p ( x , y ) H(X,Y)=\sum_{y}\sum_{x}p(x,y)log\frac{1}{p(x,y)} H(X,Y)=yxp(x,y)logp(x,y)1
    • H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) = H ( Y ∣ X ) + H ( X ) H(X,Y)=H(X|Y)+H(Y)=H(Y|X)+H(X) H(X,Y)=H(XY)+H(Y)=H(YX)+H(X)

互信息:信息熵与条件熵的差

  • 性质:
    • 1、非负性
    • 2、对称性
    • 3、不变性

相对熵:是衡量两个分布的平均信息差异

互信息是一种相对熵

8.4 信息论优化模型

最大熵模型

最大互信息模型

最小互信息模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值