最大熵模型

信息熵介绍

例子:称硬币的问题,说有5个硬币,其中有一个是假的,这个假硬币的重量很轻,所以打算用一个天平称称,问需要最少称几次就能够保证把这个假硬币给找出来?
假设 xX={1,2,3,4,5} 是那个假硬币的序号, yY={1,2,3} 是第 i 次称重时的结果。通过求解|X|=|Y|n中的n,可以获知需要n次才能找到假硬币。求解这个等式的过程如下:

n=log|X||Y|=log|X|log|Y|(1)

可以将(1)中的 log|X| 看成结果 X 的不确定程度,将log|Y|看成每一次称重结果 Y 的描述能力。
接下来,变形上述例子:已知第一个硬币是假硬币的概率是三分之一;第二个硬币是假硬币的概率也是三分之一,其他硬币是假硬币的概率都是九分之一,问需要最少称几次就能够保证把这个假硬币给找出来?
可想而知,
n=i=04P(x=Xi)x=XiY(2)

在这里引入不确定性函数,根据香农的信息论,不确定函数需要满足以下两个条件:

  • 不确定函数f是概率P的单调递减函数,即发生的概率越大,那么不确定性越小,反之,越大。
  • 两个独立符号所产生的不确定性应等于各自不确定性之和,即 fP1P2=fP1+fP2 ,这称为可加性。

同时满足这两个条件的函数为 f(P)=log(1P)=log(P)
将不确定性函数代入(2),得到:

n=i=04P(x=Xi)log(P(x=Xi))log|Y|

=4i=0P(x=Xi)log(P(x=Xi))log|Y|(3)

可以将(3)式中的分子看做整个问题的总不确定性,也就是信息熵。这样就可以理解信息熵为变量不确定性的期望。
假设离散随机变量 X 的概率分布式P(X),则其熵是 H(P)
H(P)=xP(x)logP(x)

熵满足下列不等式,
0H(P)log|X|

式中,当 X 服从均匀分布时,右边的等号才成立,也就是说这时候熵最大。由此可以看出,在(1)式中用log|X|来描述均匀分布的 X 的不确定程度是有理可据的。

特征函数

用特征函数f(x,y)描述输入 x 和输出y之间的某一个事实。
其定义是,

f(x,y)={1,xy0,

我们可以将任何样本的统计表示成一个适当的二值指示函数的期望值,我们把这个函数叫做特征函数(feature function)或简称特征(feature)。假如有n个特征函数,那么就有n个约束条件。

条件熵

H(Y|X)=xχp(x)H(Y|X=x)=xXp(x)yYp(y|x)logp(y|x)=xXyYp(x,y)log(p(y|x))=xX yYp(x,y)log(p(y|x))

最大熵模型

假设满足所有约束条件的模型集合为

C{PP|EP˘(fi)=EP(fi),i=1,2,,n}

定义在条件概率分布上的 P(Y|X) 上的条件熵为
H(P)=x,yP˘(x)P(y|x)logP(y|x)

则模型集合 C 中条件熵 H(P) 最大的模型成为最大熵模型。

参考文献

MaxEnt: 最大熵模型(Maximum Entropy Models)(一) http://www.zhizhihu.com/html/y2011/3489.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值