原文链接:nn.CrossEntropyLoss()的具体计算过程-CSDN博客
一、使用方式
这两天排查代码问题,看到损失具体是如何计算的就看了下。
criterion = nn.CrossEntropyLoss()
loss = criterion(logits, labels)
logits 里面保存的是 每个样本 是哪一类的概率,例如 第一个样本的预测结果 tensor([ 0.0815, 0.1693, 0.2274, -0.0068, -0.3081, -0.2758], grad_fn=<SelectBackward0>),分别对应于类别【2, 4, 8, 1, 3, 5】
label是样本的类别:4
需要注意的是:
- 上述的参数labels 不是one-hot形式,而是原始的数字标签(一维)。
- nn.CrossEntropyLoss()默认对batch中的n个样本的交叉损失求均值。 一般来说,我们都是采用默认的这种方式,即没有reduction参数。
- 如果出现了reduction参数,即 nn.CrossEntropyLoss(reduction=‘none’),则直接返回该批数据中的n个样本的交叉熵损失,不做任何处理。
- 如果reduction参数为sum,即 nn.CrossEntropyLoss(reduction=‘sum’),则表示对batch中的n个样本的交叉熵损失求和。
二、计算过程
nn.CrossEntropyLoss()交叉熵损失公式 首先对logits进行softmax处理, 然后 再根据真实标签对应的logits分量进行交叉熵损失的计算,最后 默认返回该批样本损失的均值。
import torch
import torch.nn as nn
import numpy as np
import math
# 使用nn.CrossEntropyLoss()函数求交叉熵损失
a = np.arange(1,13).reshape(3,4)
b = torch.from_numpy(a)
logits = b.float()
print('logits:\n',logits)
# print(logits.shape) # torch.Size([3, 4])
labels = torch.tensor([1,2,3])
print('labels:\n',labels)
# 注意:reduction参数如果为sum,则表示对batch中的n个样本的交叉熵损失求和。
# reduction参数如果为none,则直接返回该批数据中的n个样本的交叉熵损失,不做任何处理。
# 如果没有reduction参数,则默认对batch中的n个样本的交叉损失求均值。
crossentropyloss=nn.CrossEntropyLoss() # tensor(1.4402)
# crossentropyloss=nn.CrossEntropyLoss(reduction='none') # tensor([2.4402, 1.4402, 0.4402])
# crossentropyloss=nn.CrossEntropyLoss(reduction='sum') # tensor(4.3206)
crossentropyloss_output=crossentropyloss(logits,labels)
print('crossentropyloss_output:\n',crossentropyloss_output)
# 验证交叉熵的计算过程
softmax_func=nn.Softmax(dim=1)
# 关于softmax函数的具体使用可以参考链接 https://zhuanlan.zhihu.com/p/397695655
soft_output=softmax_func(logits)
print('soft_output:\n',soft_output)
print("第1个样本的交叉熵损失:",-math.log(0.0871))
print("第2个样本的交叉熵损失:",-math.log(0.2369))
print("第3个样本的交叉熵损失:",-math.log(0.6439))
print("所有样本的交叉熵损失的均值:",(-math.log(0.0871)-math.log(0.2369)-math.log(0.6439))/3)
输出结果:
博主推荐的知乎博文关于 Softmax函数讲的很好。https://zhuanlan.zhihu.com/p/397695655
首先说一下Softmax函数,公式如下:
简单例子:比如说有1个一维数组[1, 1, 2, 2],
所以计算所有值的Softmax,写入数组对应位置,为:[0.134, 0.134, 0.365, 0.365]。
再说两句题外话,为什么叫Softmax呢,因为可以看成一种max的soft形式。
exp让大的数值占比更大,所以更加偏重原本就大的数值。max()函数直接取最大的数值,而softmax则缓和一些,只是放大了大数值的占比,小数值仍然占有比例,所以叫softmax。