torch.nn.NLLLoss()与torch.nn.CrossEntropyLoss()

torch.nn.NLLLoss()

class torch.nn.NLLLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean')
  • 计算公式:loss(input, class) = -input[class]
  • 公式理解:input = [-0.1187, 0.2110, 0.7463],target = [1],那么 loss = -0.2110。
  • 个人理解:感觉像是把 target 转换成 one-hot 编码,然后与 input 点乘得到的结果。

nn.NLLLoss输入是一个对数概率向量和一个目标标签。NLLLoss() ,即负对数似然损失函数(Negative Log Likelihood)。

NLLLoss() 损失函数公式:
在这里插入图片描述

  • 常用于多分类任务,NLLLoss 函数输入 input 之前,需要对 input 进行 log_softmax 处理,即将 input 转换成概率分布的形式,并且取对数,底数为 e。
  • y k y_k yk​表示one_hot 编码之后的数据标签。
  • 损失函数运行的结果为 y k y_k yk​与经过log_softmax运行的数据相乘,求平均值,在取反。
  • 实际使用NLLLoss()损失函数时,传入的标签,无需进行one_hot编码。

实例1:

import torch
import torch.nn as nn
import torch.nn.functional as F


torch.manual_seed(2019)
output = torch.randn(1, 3)  # 网络输出
target = torch.ones(1, dtype=torch.long).random_(3)  # 真实标签
print(output)
print(target)
 
# 直接调用
loss = F.nll_loss(output, target)
print(loss)
 
# 实例化类
criterion = nn.NLLLoss()
loss = criterion(output, target)
print(loss)
 
"""
tensor([[-0.1187,  0.2110,  0.7463]])
tensor([1])
tensor(-0.2110)
tensor(-0.2110)
"""

实例2:
如果 input 维度为 M x N,那么 loss 默认取 M 个 loss 的平均值,reduction=‘none’ 表示显示全部 loss.

import torch
import torch.nn as nn
import torch.nn.functional as F
 
 
torch.manual_seed(2019)
output = torch.randn(2, 3)  # 网络输出
target = torch.ones(2, dtype=torch.long).random_(3)  # 真实标签
print(output)
print(target)
 
# 直接调用
loss = F.nll_loss(output, target)
print(loss)
 
# 实例化类
criterion = nn.NLLLoss(reduction='none')
loss = criterion(output, target)
print(loss)
 
"""
tensor([[-0.1187,  0.2110,  0.7463],
        [-0.6136, -0.1186,  1.5565]])
tensor([2, 0])
tensor(-0.0664)
tensor([-0.7463,  0.6136])
"""

参考:https://blog.csdn.net/weixin_40476348/article/details/94562240

torch.nn.CrossEntropyLoss()

对数据进行softmax,再log,再进行NLLLoss。其与nn.NLLLoss的关系可以描述为:

softmax(x)+log(x)+nn.NLLLoss====>nn.CrossEntropyLoss

无需对输出结果进行softmax处理,使用nn.CrossEntropyLoss会自动加上Softmax层。
nn.CrossEntropy()的表达式:
在这里插入图片描述

import torch
import torch.nn as nn
 
a = torch.Tensor([[1,2,3]])
target = torch.Tensor([2]).long()
logsoftmax = nn.LogSoftmax()
ce = nn.CrossEntropyLoss()
nll = nn.NLLLoss()
 
# 测试CrossEntropyLoss
cel = ce(a,target)
print(cel)
# 输出:tensor(0.4076)
 
# 测试LogSoftmax+NLLLoss
lsm_a = logsoftmax(a)
nll_lsm_a = nll(lsm_a,target)
# 输出tensor(0.4076)

看来直接用nn.CrossEntropy和nn.LogSoftmax+nn.NLLLoss是一样的结果。为什么这样呢,回想下交叉熵的表达式:
在这里插入图片描述
其中y是label,x是prediction的结果,所以其实交叉熵损失就是target对应位置的输出结果x再取-log。这个计算过程刚好就是先LogSoftmax()再NLLLoss()。

参考:
https://blog.csdn.net/watermelon1123/article/details/91044856
https://blog.csdn.net/weixin_40522801/article/details/106616295

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是天才很好

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值