1.信息量:显而易见的事情。信息量较小,不常发生的事情,信息量较大。
假设X是离散随机变量,其取值范围为I,概率分布P(x) = Pr(X = x),xI,则定义事件X = x0的信息量为I(X0) = -log(P(x0))
2.熵:对于某个事件,有n种可能,每一种可能性都有一个概率P(x),熵用来表示所有信息量的期望,即
3.相对熵(KL散度):对于同一个随机变量X,有两个单独的概率P(X)和Q(X),我们可以用KL散度来衡量两个分布的差异。
在机器学习中,P往往用来表示样本的真实分布,Q用来表示模型所预测的分布。KL散度的计算公式:
的值越小,表示q分布与p分布越接近。
4.交叉熵:一般用来求目标与预测值之间的差值。
相对熵的变形:
在机器学习中,如果要评估label与predicts之间的差距,使用KL散度,前一部分的-H(P(x))不变,因此,只需要关注交叉熵即可。一般在机器学习中,直接使用交叉熵做损失函数评估模型。