熵
熵越大,不确定性越大。比如当变量服从均匀分布时,熵最大。
事件发生的概率越大,熵越小,信息量越小(比如变量X发生的概率为1,那么它的信息量就是0,熵也是0)
熵最大,模型最好:
看了网上是解释,有说:
- 熵最大,模型的信息越多。https://juejin.im/post/5a8ee5fcf265da4e926838c7
最大熵模型
---------有时间再更----------------
最大熵模型,即满足一定约束条件的,条件熵的最大。(这里的条件就是P(Y|X))
(条件熵: https://zh.wikipedia.org/wiki/条件熵)
关于约束条件,
因为要求的是 给定X,Y的分布,即P(Y|X),如果能够获取训练样本的信息,那么,可以将 特征函数对 (X,Y)联合分布的期望值和 对条件概率的期望值 等价,此即为约束条件。
预测一个随机事件的概率分布,在满足约束条件的情况下,保留所有的不确定性,这样的预测的概率分布是均匀的,没有多余先验知识的,因此熵是最大的。