[转载]nn.CrossEntropyLoss()的具体计算过程

最新推荐文章于 2024-08-08 17:45:51 发布

wuling129

最新推荐文章于 2024-08-08 17:45:51 发布

阅读量8

点赞数

分类专栏：图像处理+python+深度学习文章标签：机器学习深度学习 python

原文链接：https://blog.csdn.net/qq_40968179/article/details/126001760

版权

图像处理+python+深度学习专栏收录该内容

118 篇文章 10 订阅

订阅专栏

原文链接：nn.CrossEntropyLoss()的具体计算过程-CSDN博客

一、使用方式

这两天排查代码问题，看到损失具体是如何计算的就看了下。

criterion = nn.CrossEntropyLoss()
loss = criterion(logits, labels)

logits 里面保存的是 每个样本 是哪一类的概率,例如  第一个样本的预测结果 tensor([ 0.0815,  0.1693,  0.2274, -0.0068, -0.3081, -0.2758], grad_fn=<SelectBackward0>)，分别对应于类别【2, 4, 8, 1, 3, 5】
label是样本的类别：4

需要注意的是：

上述的参数labels 不是one-hot形式，而是原始的数字标签（一维）。
nn.CrossEntropyLoss()默认对batch中的n个样本的交叉损失求均值。一般来说，我们都是采用默认的这种方式，即没有reduction参数。
如果出现了reduction参数，即 nn.CrossEntropyLoss(reduction=‘none’)，则直接返回该批数据中的n个样本的交叉熵损失，不做任何处理。
如果reduction参数为sum，即 nn.CrossEntropyLoss(reduction=‘sum’)，则表示对batch中的n个样本的交叉熵损失求和。

二、计算过程

nn.CrossEntropyLoss()交叉熵损失公式首先对logits进行softmax处理，然后再根据真实标签对应的logits分量进行交叉熵损失的计算，最后默认返回该批样本损失的均值。

import torch
import torch.nn as nn
import numpy as np
import math

# 使用nn.CrossEntropyLoss()函数求交叉熵损失
a = np.arange(1,13).reshape(3,4)
b = torch.from_numpy(a)
logits = b.float()
print('logits:\n',logits)
# print(logits.shape) # torch.Size([3, 4])

labels = torch.tensor([1,2,3])
print('labels:\n',labels)

# 注意：reduction参数如果为sum，则表示对batch中的n个样本的交叉熵损失求和。
# reduction参数如果为none，则直接返回该批数据中的n个样本的交叉熵损失，不做任何处理。
# 如果没有reduction参数，则默认对batch中的n个样本的交叉损失求均值。
crossentropyloss=nn.CrossEntropyLoss() # tensor(1.4402)
# crossentropyloss=nn.CrossEntropyLoss(reduction='none') #  tensor([2.4402, 1.4402, 0.4402])
# crossentropyloss=nn.CrossEntropyLoss(reduction='sum') #  tensor(4.3206)
crossentropyloss_output=crossentropyloss(logits,labels)
print('crossentropyloss_output:\n',crossentropyloss_output)

# 验证交叉熵的计算过程
softmax_func=nn.Softmax(dim=1)
# 关于softmax函数的具体使用可以参考链接 https://zhuanlan.zhihu.com/p/397695655
soft_output=softmax_func(logits)
print('soft_output:\n',soft_output)

print("第1个样本的交叉熵损失：",-math.log(0.0871))
print("第2个样本的交叉熵损失：",-math.log(0.2369))
print("第3个样本的交叉熵损失：",-math.log(0.6439))

print("所有样本的交叉熵损失的均值：",(-math.log(0.0871)-math.log(0.2369)-math.log(0.6439))/3)

输出结果：

博主推荐的知乎博文关于 Softmax函数讲的很好。https://zhuanlan.zhihu.com/p/397695655

首先说一下Softmax函数，公式如下：

简单例子：比如说有1个一维数组[1, 1, 2, 2]，

所以计算所有值的Softmax，写入数组对应位置，为：[0.134, 0.134, 0.365, 0.365]。

再说两句题外话，为什么叫Softmax呢，因为可以看成一种max的soft形式。

exp让大的数值占比更大，所以更加偏重原本就大的数值。max()函数直接取最大的数值，而softmax则缓和一些，只是放大了大数值的占比，小数值仍然占有比例，所以叫softmax。

wuling129

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[转载]nn.CrossEntropyLoss()的具体计算过程

这两天排查代码问题，看到损失具体是如何计算的就看了下。logits 里面保存的是每个样本是哪一类的概率,例如第一个样本的预测结果 tensor([ 0.0815, 0.1693, 0.2274, -0.0068, -0.3081, -0.2758], grad_fn=<SelectBackward0>)，分别对应于类别【248135label是样本的类别：4。
复制链接

扫一扫

专栏目录