pytorch常见的损失函数和优化器

博客都是给自己看的笔记，如有误导深表抱歉

已于 2023-03-19 19:19:36 修改

阅读量766

点赞数

分类专栏：网络搭建文章标签： pytorch 机器学习深度学习

于 2023-03-19 19:19:33 首次发布

本文链接：https://blog.csdn.net/weixin_50752408/article/details/129654644

版权

网络搭建专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章介绍了PyTorch中常见的损失函数，如MSELoss、CrossEntropyLoss和BCEWithLogitsLoss等，以及它们在不同任务中的应用。同时，讨论了优化器如SGD、Adam和Adagrad，强调了学习率在训练过程中的重要性。此外，还提到了优化器参数的配置，如动量和权重衰减。

摘要由CSDN通过智能技术生成

以下是一些常见的PyTorch损失函数：

nn.MSELoss：均方误差损失，用于回归问题，例如预测房价等。
nn.L1Loss：平均绝对误差损失，也用于回归问题。
nn.CrossEntropyLoss：交叉熵损失，用于多分类问题。
nn.NLLLoss：负对数似然损失，也用于多分类问题。
nn.BCELoss：二元交叉熵损失，用于二分类问题。
nn.BCEWithLogitsLoss：将sigmoid和二元交叉熵结合起来的损失函数，用于二分类问题。
nn.MarginRankingLoss：用于学习排序模型的损失函数。
nn.HingeEmbeddingLoss：用于支持向量机的损失函数。
nn.MultiLabelMarginLoss：用于多标签分类问题的损失函数。

以上是一些常用的PyTorch损失函数，当然还有其他的损失函数，例如SmoothL1Loss、KLDivLoss、CosineEmbeddingLoss等等。在选择损失函数时，需要根据具体的问题和模型进行选择和调整。

损失函数参数：

nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean')

其中，各参数的含义如下：

weight：一个1维张量，用于为每个类别指定权重。默认为None，表示所有类别的权重相等。
size_average和reduce：这两个参数已经被废弃，可以忽略。
ignore_index：指定某个类别的索引，这个类别的损失将被忽略。默认为-100，表示不忽略任何类别。
reduction：指定损失函数的计算方式，可选值为'mean'、'sum'或'none'。当为'mean'时，损失函数的输出将取平均值；当为'sum'时，输出将取总和；当为'none'时，输出将是每个样本的损失。

以下是一些常见的PyTorch优化器：

PyTorch提供了多种优化器，用于更新模型中的参数以最小化损失函数。

torch.optim.SGD：随机梯度下降法，通过计算损失函数的梯度来更新参数。
torch.optim.Adam：基于梯度的优化算法，结合了Adagrad和RMSprop的优点。
torch.optim.Adagrad：自适应梯度算法，对每个参数使用不同的学习率。
torch.optim.RMSprop：自适应梯度算法，使用指数加权平均来调整学习率。
torch.optim.Adadelta：自适应梯度算法，用梯度的平方的移动平均来调整学习率。
torch.optim.AdamW：Adam算法的一种变体，使用L2正则化来更新权重，防止过拟合。

以上是一些常用的PyTorch优化器，当然还有其他的优化器，例如AdaptiveMomentEstimation (Adamax)、AdaptiveGradientAlgorithm (AdaGrad)、Nesterov's Accelerated Gradient (NAG)等等。在选择优化器时，需要根据具体的问题和模型进行选择和调整。

优化器参数：

optim.SGD(params, lr=<required parameter>, momentum=0, dampening=0, weight_decay=0, nesterov=False)

其中，各参数的含义如下：

params：需要优化的模型参数列表。
lr：学习率（learning rate），控制参数更新的速度。该参数是必须指定的。
momentum：动量参数（momentum），用于加速优化过程。默认为0，表示不使用动量。
dampening：抑制动量项的抖动的抑制系数。默认为0，表示不进行抑制。
weight_decay：权重衰减参数，用于控制过拟合。默认为0，表示不进行权重衰减。
nesterov：是否使用Nesterov动量。默认为False，表示不使用。

例如：

optimizer = optim.SGD(model.parameters(), lr=0.01)

model.parameters()是一个方法，用于获取一个模型中需要更新的参数。在PyTorch中，模型通常是由多个层（如全连接层、卷积层等）组成的，每个层都有自己的权重和偏置，这些权重和偏置是需要在训练过程中不断调整的。model.parameters()的作用就是将所有需要更新的参数放在一个列表中，方便优化器进行更新。

具体来说，model.parameters()返回一个包含了所有需要更新的参数的生成器（generator）。当我们对一个模型使用model.parameters()方法时，实际上是对模型中所有可学习的参数进行了迭代。这些参数包括了所有需要训练的权重和偏置，通常是由nn.Parameter类型对象表示的。

lr是学习率（learning rate）的缩写，是指在每次参数更新时，更新的幅度大小。学习率的选择是机器学习中的一个重要问题，它决定了模型在训练过程中参数更新的速度和稳定性，对模型的性能和训练效率都有重要影响。

在PyTorch中，我们可以通过在优化器对象中设置lr参数来控制学习率。在给定的例子中，lr=0.01表示每次参数更新时，更新的幅度为0.01。如果lr过大，则可能会导致参数更新过快，甚至会出现不收敛的情况；如果lr过小，则可能会导致模型收敛速度过慢，需要更多的训练时间才能达到较好的性能。

通常情况下，选择合适的学习率需要根据具体的模型和数据集进行调参，可以通过尝试不同的学习率来找到最佳的取值。同时，还有很多优化器（如Adam、RMSprop等）会自动调整学习率，使得参数更新更加稳定和高效。