交叉熵(Cross-Entropy)和相对熵(Kullback-Leibler Divergence,也称为KL散度)是信息论和机器学习中常用的两个概念,用于衡量概率分布之间的差异。
1.交叉熵(Cross-Entropy):
在机器学习中,交叉熵通常用于度量两个概率分布之间的差异,特别是在分类任务中衡量预测分布与真实分布之间的差异。对于离散概率分布,交叉熵的定义如下:
其中,p(x) 是真实分布(例如,标签的实际分布),q(x)$是预测分布(例如,模型的预测分布)。交叉熵越小,表示预测分布越接近真实分布,模型的预测效果越好。
2.相对熵(Kullback-Leibler Divergence,KL 散度):
相对熵用于衡量两个概率分布之间的差异,它是从一个分布到另一个分布的信息损失。对于离散概率分布,相对熵的定义如下:
其中,p(x) 是真实分布,q(x) 是另一个分布。相对熵不是对称的,即 D_{KL}(p , || , q) \neq D_{KL}(q , || , p)。
需要注意的是,虽然交叉熵和相对熵在概念上相似,但它们的用途略有不同。交叉熵通常用于衡量预测分布与真实分布之间的差异,而相对熵则衡量了从一个分布到另一个分布的信息损失。在机器学习中,我们经常使用交叉熵作为损失函数来训练模型,以便使模型的预测分布接近真实分布。