基础算法:交叉熵损失函数

本文探讨了交叉熵作为度量概率分布差异的工具在机器学习中的使用,特别是在优化问题中的改进策略。信息熵和相对熵(KL散度)的概念被引入,指出交叉熵实际上是KL散度的一个变形,常用于评估模型预测与真实分布的匹配程度。在实际操作中,由于信息熵通常被视为常量,因此交叉熵成为了评估模型性能的主要指标。文章提到了两种改进方法:增加扰动和利用精英样本,以提升优化效果。
摘要由CSDN通过智能技术生成

改进方法论文:”随机优化的改进交叉熵方法“,DOI:10.13700/j.bh.1001-5965.2017.0017

交叉熵主要用于度量两个概率分布之间的差异性。

信息量

设某一个事件发生的概率为𝑃(𝑥),则信息量表示为𝐼𝑥=−log⁡(𝑃(𝑥)),I(x)表示信息量,log是以e为底的自然对数。

信息熵

用来表示所有信息量的希望,公式:(X表示一个离散型的随机变量)𝐻𝑋=−𝑖=1𝑛𝑃𝑥𝑖log⁡(𝑃𝑥𝑖)),(𝑋=𝑥1,𝑥2,𝑥3,…,𝑥𝑛)

相对熵(KL散度)

对于同一个随机变量X有两个单独的概率分布P(x)和Q(x),用其表示两分布之间的差异:公式如下

𝐷𝐾𝐿(𝑝||𝑞)=𝑖=1𝑛𝑝𝑥𝑖log⁡(𝑝(𝑥𝑖)𝑞(𝑥𝑖))

机器学习中常常用P(x)表示样本的真实分布,Q(x)表示模型的预测分布。

交叉熵

把KL散度公式拆开,得到下面的式子:

KL散度=交叉熵-信息熵(上面没有对应好,前面一项是信息熵,后面才是交叉熵),也就是说后者就是交叉熵,公式如下:

本来是应该算KL散度的,因为他才是真正表达两个期望之间差值的数据,但是一般在机器学习中,信息熵就是一个常量(因为是给定的标签,给定的结果值)所以交叉熵也就变相等于KL散度加上了一个常量,所以它越小,也可以越表示差异性越小。并且计算交叉熵的计算方法更加方便!!!,所以都用交叉熵。

PS:在计算过程中与softmax函数是标配关系

改进方法:(本来有四种,但是这里只提及两种)

1.增加扰动:                                                                                          

   2.精英样本

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值