Pytorch 中的 torch.optim.swa_utils.AverageModel() 及其原理总结

怎样才能回到过去

已于 2023-01-31 09:35:39 修改

阅读量1k

点赞数 1

分类专栏： Pytorch 中的各种函数文章标签： Pytorch Powered by 金山文档

于 2023-01-31 09:35:09 首次发布

本文链接：https://blog.csdn.net/z2572862506/article/details/128811734

版权

Pytorch 中的各种函数专栏收录该内容

54 篇文章 1 订阅

订阅专栏

1 背景知识

在了解 torch.optim.swa_utils.AverageModel() 前, 我们先了解以下 SWA(随机加权平均)

1.1 SWA

SWA 全称 : Stochastic Weight Averaging,

SWA是使用修正后的学习率策略对SGD(或任何随机优化器)遍历的权重进行平均，从而可以得到更好的收敛效果

随机梯度下降(SGD)在测试集上，趋向于收敛至损失相对低的地方，但却很难收敛至最低点, 经过几个epoch的训练，得到了W1,W2,W3三个权重，但无法收敛至最低点。如果使用SWA可以将三个权重加权平均，从而可能收敛至相对SGD更小的损失

SGD在训练集收敛得比较好，但是在测试集效果并不如SWA。而SWA虽然在训练集收敛得不如SGD，但是在测试集上表现得更加好

2 AverageModel() 介绍

AveragedModel 类用于计算SWA模型的权重。可以通过运行以下命令创建一个averaged model:

from torch.optim.swa_utils import AverageModel
swa_model = AverageModel(model)

这里的模型Model可以是任意的torch.nn.Module对象。swa_model将跟踪模型参数的运行平均值。要更新这些平均值，你可以使用update_parameters()函数:

swa_model.update_parameters(model)

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

怎样才能回到过去

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SWA实战：使用SWA进行微调，提高模型的泛化.zip

04-26

SWA简单来说就是对训练过程中的多个checkpoints进行平均，以提升模型的泛化性能。记训练过程第i ii个epoch的checkpoint为w i w_{i}w i ，一般情况下我们会选择训练过程中最后的一个epoch的模型w n w_{n}w n 或者在验证集上效果最好的一个模型w i ∗ w^{*}_{i}w i ∗ 作为最终模型。但SWA一般在最后采用较高的固定学习速率或者周期式学习速率额外训练一段时间，取多个checkpoints的平均值。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/124414939

torch_swa_examples_SWA_pytorch_

10-01

pytorch中swa模块的使用范例，能有效提高模型的泛化能力。

参与评论您还未登录，请先登录后发表或查看评论

SWA(随机权重平均) for Pytorch

菊头蝙蝠的博客

05-25

5025

https://blog.csdn.net/leviopku/article/details/84037946 https://pytorch.org/blog/pytorch-1.6-now-includes-stochastic-weight-averaging/

torch_swa_examples

05-29

随机加权平均（SWA） PyTorch 1.6现在支持随机加权平均（SWA）！该存储库包含在对DNN使用SWA训练方法的实现的。此PyTorch的代码改编自原始的PyTorch。请参阅新的PyTorch博客文章，以获取有关SWA和torch.optim实现的更多详细信息。该文件提出了SWA （UAI 2018）作者：Pavel Izmailov、Dmitrii Podoprikhin、Timur Garipov、Dmitry Vetrov 和 Andrew Gordon Wilson。介绍 SWA是一种简单的DNN训练方法，可以用作SGD的直接替代方法，具有改进的泛化，更快的收敛性，并且基本上没有开销。 SWA的关键思想是使用修改后的学习率计划对SGD生成的多个样本求平均。我们使用恒定或周期性的学习速率计划，这会使SGD探索权重空间中与高性能网络相对应的点集。我们观

pytorch - swa_model模型保存的问题

菊头蝙蝠的博客

05-26

2446

在pytorch中使用swa_model 进行保存的时候会出现这样的问题。 1.首先复制一份swa_utils.py到当前目录 2.其次将AveragedModel类改成下面的样子 class AveragedModel(Module): def __init__(self, model, device=None): super(AveragedModel, self).__init__() self.module = deepcopy(model)

PyTorch入门二 || pytorch线性模型

qq1803291168

01-31

1053

pytorch线性模型简介

torch.optim.lr_scheduler--学习率调整总结

weixin_44543648的博客

01-21

6006

参考链接：https://blog.csdn.net/qyhaill/article/details/103043637 调用例子： import torch import torch.nn as nn from torch.optim.lr_scheduler import LambdaLR initial_lr = 5 class model(nn.Module): def __init__(self): super().__init__() self.con

pytorch中troch.optim.Adam优化算法

shuijinghua的博客

03-10

9846

Adam优化算法（Ada optimization algorithm)，在深度学习的历史上，包括许多知名研究者在内，提出了优化算法，并很好地解决了一些问题。Adam优化算法基本上就是将momentum和rmsprop结合在一起，那么来看看如何使用Adam算法。Adam代表的是adaptive moment estimation,本质上是带有动量项的RMSprop，它利用梯度的一阶矩阵估计和二...

pytorch的torch.cuda.set_per_process_memory_fraction()函数介绍

weixin_42993916的博客

03-11

6316

函数功能：在pytorch中设置显存使用比例，即能够完成显存的使用上限设置。 torch.cuda.set_per_process_memory_fraction(0.5, 0) 参数1：fraction 限制的上限比例，如0.5 就是总GPU显存的一半，可以是0~1的任意float大小；参数2：device 设备号；如0 表示GPU卡 0号；功能解释如下： Set memory fraction for a process. The fraction is used to l

深度学习之pytorch 中 torch.nn介绍

热门推荐

Liam的个人博客

07-28

1万+

PyTorch基础入门一：PyTorch基本数据类型 1）Tensor(张量) Pytorch里面处理的最基本的操作对象就是Tensor（张量），它表示的其实就是一个多维矩阵，并有矩阵相关的运算操作。在使用上和numpy是对应的，它和numpy唯一的不同就是，pytorch可以在GPU上运行，而numpy不可以。所以，我们也可以使用Tensor来代替numpy的使用。当然，二者也可以相互转换。...

【torch.optim】优化器的使用 / 学习率的调整 / SWA策略

zyw2002的博客

12-09

2819

torch.optim是实现各种优化算法的包。大多数常用的方法都已得到支持，而且接口足够通用，因此将来还可以轻松集成更复杂的方法。

模型的权值平均的原理和Pytorch的实现

m0_62919535的博客

01-10

1599

模型权值平均是一种用于改善深度神经网络泛化性能的技术。通过对训练过程中不同时间步的模型权值进行平均，可以得到更宽的极值点（optima）并提高模型的泛化能力。首先介绍指数移动平均（EMA）方法，它使用一个衰减系数来平衡当前权值和先前平均权值。其次，介绍了随机加权平均（SWA）方法，它通过将当前权值与先前平均权值进行加权平均来更新权值。最后，介绍了Tanh自适应指数移动EMA算法（T_ADEMA），它使用Tanh函数来调整衰减系数，以更好地适应训练过程中的不同阶段。我还在ResNet18模型上进行了简单的实验

深度学习优化器

weixin_40849121的博客

04-19

2068

深度学习前沿优化器调研

随机权值平均优化器SWA(Stochastic Weight Averaging)简介

weixin_42108090的博客

09-11

2174

SWA is a simple procedure that improves generalization in deep learning over Stochastic Gradient Descent (SGD) at no additional cost, and can be used as a drop-in replacement for any other optimizer in PyTorch. SWA has a wide range of applications and feat

SWA(随机权重平均)——一种全新的模型优化方法

木盏

11-13

1万+

PyTorch学习笔记

潜心

11-19

1649

Python API 目录一、torch包 1.Tensors 2.Creation Ops 3.Indexing, Slicing, Joining, Mutating Ops 4.Generators 5.Random sampling 二、torch.nn包 1.Containers 2.Convolution Layers 3.Pooling layers 4.Padding Layers 5.Non-linear Activations (weighted sum, n

Stochastic Weight Averaging in PyTorch

xiaojiajia007的博客

06-03

1219

Stochastic Weight Averaging in PyTorch | PyTorch.pdf 具体指导请参见上的的pdf文件 SWA为什么有效 Figure 1. Illustrations of SWA and SGD with a Preactivation ResNet-164 on CIFAR-100 [1]. Left: test error surface for thr...