torch.nn.CrossEntropyLoss 中参数设置

XiaoPangJix1

于 2024-01-25 14:10:45 发布

阅读量1.6k

点赞数 17

分类专栏： pytorch 文章标签： pytorch

本文链接：https://blog.csdn.net/zmm__/article/details/135841493

版权

pytorch 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本文内容：简单回顾交叉熵损失函数，解释pytorch中该函数的参数(reduce, reduction, size_average)含义。

交叉熵函数定义

背景知识：
给定一个batch的预测分数(softmax归一化后) $p_{pred}\in \mathbb{R}^{B\times C}$ ，与其真值标签(one-hot) $p_{gt}\in \mathbb{R}^{B\times C}$ . 其中， $B$ 为batchsize, $C$ 为类别总数。那么，其中样本 $b$ 的交叉熵损失可以计算为：

$loss_b=p_{gt}(b)\sum_{ci=1}^{C} log (\frac{p_{gt}(b,ci)} {p_{pred}(b,ci)})$

`pytorch`中的参数定义

pytorch对应函数：torch.nn.CrossEntropyLoss ， documents 链接: link

CLASS torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean', label_smoothing=0.0)

要解释的参数: reduce,size_average,reduction

在 torch.nn.CrossEntropyLoss函数中，能够设置的只是不同样本的交叉熵返回形式，例如：沿batch求和或逐样本返回等。但每个样本的交叉熵Loss，都是沿着所有类别求和后的结果（即上述公式），这点无法自定义。（这点与KL散度不同，不过很符合loss本身的物理含义）
reduce参数为第一优先级的控制参数，控制返回的loss是逐个样本的 (返回 $B\times 1$ )，还是一整个batch的(返回 $1\times 1$ )。

具体来说，如果 reduce为False: 返回每个样本的loss: $\{loss_b\}^B_{b=1,\cdots,B}$ ; 如果reduce为True: 将所有样本的loss融合，对一个batch返回一个标量( $1\times 1$ ), 融合策略由参数size_average控制。

size_average为第二优先级的参数，在对一整个batch返回一个Loss的设置下，size_average用来控制对各个样本Loss的融合方式。

具体来说，size_average为bool类型，设置为True时，表示对各个样本的loss，求平均；设置为False时，表示对各个样本的Loss，求和。此处，各个样本的loss,即为上式中的 $loss_b$ .

注意：size_average当且仅当在reduce为True时，才被考虑。在reduce为False时，size_average被屏蔽。

reduction 为第三优先级的参数。它只有在size_average和reduce都没有额外指定时才生效。

reduction是reduction和size_average的融合（功能上是等价的），可以单独用reduction一个函数，起到这两个参数组合的效果。

reduction为str，可选的有mean, sum, none。

none: 返回每个样本的loss, 同reduce=False
mean: 返回所有样本的loss均值，同reduce=True, size_average=True
mean: 返回所有样本的loss之和，同reduce=True, size_average=False

函数使用注意：torch.nn.CrossEntropyLoss对输入的预测，默认为未归一化前的logits，不要将softmax的输出送进去。

官方例子：

>>> # Example of target with class indices
>>> loss = nn.CrossEntropyLoss()
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.empty(3, dtype=torch.long).random_(5)
>>> output = loss(input, target)
>>> output.backward()
>>>
>>> # Example of target with class probabilities
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.randn(3, 5).softmax(dim=1)
>>> output = loss(input, target)
>>> output.backward()

XiaoPangJix1

关注

17
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
torch.nn.CrossEntropyLoss 中参数设置

背景知识：给定一个batch的预测分数(softmax归一化后)ppred∈RB×Cppred∈RB×C，与其真值标签(one-hot)pgt∈RB×Cpgt∈RB×C. 其中，BBB为batchsize,CCC为类别总数。那么，其中样本bbblossbpgtb∑ci1Clogpgtbcippredbcilossbpgtbc。
复制链接

扫一扫