含义 KL散度就是衡量两个概率差异性的一个指标,差异性越大,那么KL散度就越大。散度也叫做相对熵。 公式如下: KL散度等于交叉熵-信息熵 。 信息熵相当于是一个常量,固定的,所以最小化KL散度,其实就是最小化交叉熵 。 p(x)是实际的概率分布,q(x)是预测的概率分布,当两者完全一样的时候,散度为0。 【注意】D(q||p)不一定等于D(p||q)