最大熵模型在工业乃至于金融业都有广泛的应用,下面我们对其做简要的介绍。
熵
在本人的文章信息论基础简介里,我们介绍了“信息熵”,但“熵”这个词,最早是来自于热力学中的概念。宏观上,体系的熵变等于可逆过程吸收或者耗散的热量除以它的温度;微观上,熵是大量微观粒子的位置和速度的分布概率函数,是描述系统中大量微观粒子无序性宏观参数。也就是说,熵是描述事物无序性的参数,熵越大则无序性越强。
从熵的定义可以看出,其与信息熵在描述事物无序性的方面是统一的。
最大熵理论
熵增原理 -- 一个鼓励系统的熵,自发地趋近于极大,随着熵的增加,有序状态逐步变为混沌状态,不可能自发产生新的有序结构。对应的,随机事件的信息熵也有类似的特性,Jaynes证明:对于随机事件的所有相容的预测(相容预测是指符合已知的某些参数与随机事件相关条件的某种对随机事件的分布的预测)中,熵最大的预测出现的概率占绝对优势。换句话说,最大熵原理的实质是,在已知某些限制条件的情况下,熵最大的概率分布预测是最符合常理的。
我们来举一个现实中的例子,设,。要推断p(a,b),唯一知道的信息是p(x,0) + p(y,0) = 0:
按照最大熵原理,我们可以把该问题转化为一个最优化问题:
参考文献:
[1] 自然语言处理的最大熵模型 常宝宝
[2] 最大熵理论及其应用 廖先桃