交叉熵损失函数

Cross Entropy Loss Function(交叉熵损失函数)

原理:交叉熵

交叉熵损失函数顾名思义是利用交叉熵。交叉熵是信息论中的一个重要概念,要弄清楚交叉熵需要从最基本的信息量开始。

信息量

衡量一个事件信息量大小就看这个信息消除事件不确定性的程度。也即是说信息量的大小和事件发生的概率成反比,可以表示如下,
在这里插入图片描述
其中x表示事件,p(x)表示事件发生的概率。

通俗讲中国乒乓球夺冠的信息量就小于国足进世界杯。

信息熵

信息量只针对单个事件,但信息熵是所有事件的信息量的期望。
p(xi)是指某个样本的概率分布。在真实事件中概率分布为[0,0,1]之类的非0即1的列表,而预测中通常为0-1之间的数,比如[0.2,0.2,0.6]。

在这里插入图片描述
信息熵具有以下性质:

  1. 单调性:即发生概率越高的事件,其所携带的信息熵越低。极端案例就是“太阳从东方升起”,因为为确定事件,所以不携带任何信息量。
  2. 非负性,即信息熵不能为负。这个很好理解,因为负的信息,即你得知了某个信息后,却增加了不确定性是不合逻辑的。
  3. 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。

相对熵

相对熵又称KL散度(Kullback-Leibler (KL) divergence),用于衡量对于同一个随机变量x的两个单独的概率分布p(x)和q(x)之间的差异。
在机器学习中预测得到的q(x)与实际的p(X)信息熵的差值。
在这里插入图片描述
KL散度的值越小表示两个分布越接近 。相对熵不为负。

交叉熵

将相对熵进行展开:
在这里插入图片描述
在这里插入图片描述
第一项为恒定的信息熵,所以机器学习优化的是第二项称为交叉熵。
在这里插入图片描述

损失函数

多分类中损失函数为:
在这里插入图片描述
其中:

  • [M] ——类别的数量
  • [yic] ——符号函数( 0或 1 ),如果样本i的真实类别等于c取1 ,否则取0
  • [pic] ——预测出的样本 i 属于类别c的预测概率

可将该函数看为所有样本的交叉熵的平均值。

举个例子:

则loss值为:

在这里插入图片描述

参考文章:
文章一

文章二

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值