1 前言
信息熵在机器学习和深度学习中应用广泛,如决策树算法、对比学习等方法。为了深入的学习相关知识,整理一下有关信息熵的东西,如有理解错误的地方各位大佬在评论区多多指正。
此文为自己学习的记录,其中很多内容借鉴了许多资料,相关参考一并在参考文献中列出。
2 信息熵
信息熵是衡量一条信息中带有信息量大小的单位, 如同衡量时间用秒,衡量物体的质量用g一样。那么这里还有一个问题:什么样的消息算作“信息量大”呢?什么样的消息又算作“信息量小呢”?
这里有一个通俗理解:信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如湖南产生的地震了;越大概率的事情发生了产生的信息量越小,如太阳从东边升起来了(肯定发生嘛,没什么信息量)。
所以信息熵用来描述一个事件混乱程度的大小(一个事件我们一定知道结果,那么这个事件的混乱程度就是0;一个时间充满随机性,我们猜不到或者很难猜到结果,那么他的混乱度就很大)
更好的例子理解可见参考文献【2】。有了对上面信息量的定义之后即:
- 越小概率的事情发生了产生的信息量越大
- 越大概率的事情发生了产生的信息量越小
如何定义一个函数去描述这种现象?