[转载]nn.CrossEntropyLoss()的具体计算过程

原文链接:nn.CrossEntropyLoss()的具体计算过程-CSDN博客

一、使用方式

这两天排查代码问题,看到损失具体是如何计算的就看了下。

criterion = nn.CrossEntropyLoss()
loss = criterion(logits, labels)

logits 里面保存的是 每个样本 是哪一类的概率,例如  第一个样本的预测结果 tensor([ 0.0815,  0.1693,  0.2274, -0.0068, -0.3081, -0.2758], grad_fn=<SelectBackward0>),分别对应于类别【2, 4, 8, 1, 3, 5label是样本的类别:4

需要注意的是:

  • 上述的参数labels 不是one-hot形式,而是原始的数字标签(一维)。
  • nn.CrossEntropyLoss()默认对batch中的n个样本的交叉损失求均值。 一般来说,我们都是采用默认的这种方式,即没有reduction参数。
  • 如果出现了reduction参数,即 nn.CrossEntropyLoss(reduction=‘none’),则直接返回该批数据中的n个样本的交叉熵损失,不做任何处理。
  • 如果reduction参数为sum,即 nn.CrossEntropyLoss(reduction=‘sum’),则表示对batch中的n个样本的交叉熵损失求和。

二、计算过程

nn.CrossEntropyLoss()交叉熵损失公式 首先对logits进行softmax处理, 然后 再根据真实标签对应的logits分量进行交叉熵损失的计算,最后 默认返回该批样本损失的均值。

import torch
import torch.nn as nn
import numpy as np
import math

# 使用nn.CrossEntropyLoss()函数求交叉熵损失
a = np.arange(1,13).reshape(3,4)
b = torch.from_numpy(a)
logits = b.float()
print('logits:\n',logits)
# print(logits.shape) # torch.Size([3, 4])

labels = torch.tensor([1,2,3])
print('labels:\n',labels)

# 注意:reduction参数如果为sum,则表示对batch中的n个样本的交叉熵损失求和。
# reduction参数如果为none,则直接返回该批数据中的n个样本的交叉熵损失,不做任何处理。
# 如果没有reduction参数,则默认对batch中的n个样本的交叉损失求均值。
crossentropyloss=nn.CrossEntropyLoss() # tensor(1.4402)
# crossentropyloss=nn.CrossEntropyLoss(reduction='none') #  tensor([2.4402, 1.4402, 0.4402])
# crossentropyloss=nn.CrossEntropyLoss(reduction='sum') #  tensor(4.3206)
crossentropyloss_output=crossentropyloss(logits,labels)
print('crossentropyloss_output:\n',crossentropyloss_output)

# 验证交叉熵的计算过程
softmax_func=nn.Softmax(dim=1)
# 关于softmax函数的具体使用可以参考链接 https://zhuanlan.zhihu.com/p/397695655
soft_output=softmax_func(logits)
print('soft_output:\n',soft_output)

print("第1个样本的交叉熵损失:",-math.log(0.0871))
print("第2个样本的交叉熵损失:",-math.log(0.2369))
print("第3个样本的交叉熵损失:",-math.log(0.6439))

print("所有样本的交叉熵损失的均值:",(-math.log(0.0871)-math.log(0.2369)-math.log(0.6439))/3)

输出结果:

博主推荐的知乎博文关于 Softmax函数讲的很好。https://zhuanlan.zhihu.com/p/397695655

首先说一下Softmax函数,公式如下:

简单例子:比如说有1个一维数组[1, 1, 2, 2],

所以计算所有值的Softmax,写入数组对应位置,为:[0.134, 0.134, 0.365, 0.365]。

再说两句题外话,为什么叫Softmax呢,因为可以看成一种max的soft形式。

exp让大的数值占比更大,所以更加偏重原本就大的数值。max()函数直接取最大的数值,而softmax则缓和一些,只是放大了大数值的占比,小数值仍然占有比例,所以叫softmax。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值