1. 信息熵 (Entropy)
获得1 bit 的信息可以将不确定性减少一半(也可以说不确定性降低了2倍)
例子:
假设天气情况完全随机,有晴天、雨天两种情况,则是晴天或雨天的概率各为0.5。那么只需要1 bit () 的信息就可以消除这个不确定性(用0代表晴天,1代表雨天,或者反过来也行),此时,获取1bit信息,不确定性降低2倍也就是概率乘2,0.5*2=1,变成了确定事件,消除了不确定性。
假设天气情况完全随机,有4种情况,则是每种情况的概率各为0.25。那么需要2 bit () 的信息来消除这个不确定性(用00,01,10,11代表四种天气情况),此时,获取2bit信息,不确定性降低2倍再降低2倍也就是概率乘2再乘2,0.25*2*2=1,变成了确定事件,消除了不确定性。
假设天气情况完全随机,有8种情况,则是每种情况的概率各为0.125。那么需要3 bit () 的信息来消除这个不确定性(用000,001,010,011,100,101,110,111代表八种天气情况),此时,获取3bit信息,不确定性降低8倍也就是概率乘8,0.125*8=1,变成了确定事件,消除了不确定性。
以上的情况为各种基本事件出现的概率相等,对于概率不等的情况,如下:
例子:
假设在某一地区,有晴天和雨天两种情况,晴天的概率为0.75,雨天的概率为0.25;那么这个时候,我们知道不同的天气所获得的信息量就不同了,先给出 知道是晴天所获得的信息量 和 知道是雨天所获得的信息量;
晴天: = 0.41 bit
雨天: = 2 bit
在这个例子中,我们本身就知道明天大概率会是晴天,这时气象站告诉我们,明天是晴天,那么我们的不确定性并不会下降太多;但是我们知道明天是雨天的概率是0.25,这时气象站报道明天是雨天,那么我们获取到的信息将会是2 bit。
在这种情况下,衡量不确定性的是事件概率的倒数。思考如下,如果一个事件发生的概率越小,那么这个事件的不确定性就越大,消除这个不确定性所需要获取的信息就越多。类比,概率越小,概率的倒数越大,概率的倒数的以2为底的对数就越大。
平均而言,一天从气象台获取的信息量为:
= 0.81 bit
也就是说,我们平均每天需要从气象台获取0.81bit的信息来消除我们对于天气的不确定性。刚刚我们计算的,就是熵,可以看出,熵很好的衡量了事件的不确定性。Entropy(熵)的计算公式如下(就是刚才计算公式的化简):
其中,i代表事件i,代表该事件发生的概率。
2. 交叉熵(Cross-Entropy)
交叉熵计算公式如下:
其中,p代表事件真实的概率分布,q代表我们预测的概率分布。如果我们预测的概率分布与真实的概率分布相同,那么H(p,q)=H(p),如果不相等,那么交叉熵的量就会超过熵的量,超出的这部分就被称为相对熵,更常见的称呼为KL散度(KL Divergence)。
附:二分类交叉熵公式:
其中,p为真实是正例的概率,q是预测是正例的概率。
3. KL散度
公式: 交叉熵 = 熵 + KL散度
在实际训练分类模型时,我们通常使用以e为底的对数,而不是以2为底的对数,这对训练模型并没有什么影响,因为这两者之间就是一个倍数的关系。
举个栗子:
五分类问题,对于其中一个样本(ball):
真实概率分布 | 0% | 0% | 100% | 0% | 0% |
类别 | apple | banana | ball | car | peach |
预测概率分布 | 10% | 0% | 60% | 0% | 30% |
一般直接写为: