秒杀——pytorch1.8报错 UnboundLocalError: local variable ‘beta1‘ referenced before assignment（adamw.py）

不大不小鸭

已于 2024-03-17 21:03:49 修改

阅读量1.1k

点赞数 22

文章标签： python 人工智能论文笔记目标跟踪自动驾驶

于 2024-03-17 21:02:14 首次发布

本文链接：https://blog.csdn.net/winkingzzx/article/details/136788518

版权

一、我的环境配置（PyTorch 1.8.1 Python 3.8 (ubuntu18.04) Cuda 11.1，血泪安装亲测有效）

安装mmdetection3d系列——秒杀流-CSDN博客

二、出错得原因

sigkill_handler(signal.SIGTERM, None) # not coming back File "/root/miniconda3/lib/python3.8/site-packages/torch/distributed/launch.py", line 301, in sigkill_handler raise subprocess.CalledProcessError(returncode=last_return_code, cmd=cmd) subprocess.CalledProcessError: Command '['/root/miniconda3/bin/python', '-u', './tools/train.py', '--local_rank=0', './projects/configs/bevformer/bevformer_base.py', '--launcher', 'pytorch', '--deterministic']' returned non-zero exit status 1.

这个错误表明在 adamw.py 文件中的 step 方法中，beta1 变量在被引用之前未被赋值。这通常意味着在代码中没有为 beta1 变量赋初始值就被引用了。

在调用adamw优化器报错，发现是pytoch1.8中的adamw源码写错了，pytorch官方在1.9版本中修复了这个错误，所以直接用1.9中的代码替换掉就行、

三、解决方法（一定要注意是optim文件下的）

window系统：根据路径找到optim/adamw.py

./anaconda3/envs/petr/lib/python3.8/site-packages/torch/optim/adamw.py

Linux系统：根据路径找到optim/adamw.py

/root/miniconda3/lib/python3.8/site-packages/torch/optim/adam.py

由于安装位置不同，上面示范路径可能存在不同，但找到他并将下面代码替换optim/adamw.py 即可：

import torch
from . import _functional as F
from .optimizer import Optimizer
 
 
class AdamW(Optimizer):
    r"""Implements AdamW algorithm.
    The original Adam algorithm was proposed in `Adam: A Method for Stochastic Optimization`_.
    The AdamW variant was proposed in `Decoupled Weight Decay Regularization`_.
    Args:
        params (iterable): iterable of parameters to optimize or dicts defining
            parameter groups
        lr (float, optional): learning rate (default: 1e-3)
        betas (Tuple[float, float], optional): coefficients used for computing
            running averages of gradient and its square (default: (0.9, 0.999))
        eps (float, optional): term added to the denominator to improve
            numerical stability (default: 1e-8)
        weight_decay (float, optional): weight decay coefficient (default: 1e-2)
        amsgrad (boolean, optional): whether to use the AMSGrad variant of this
            algorithm from the paper `On the Convergence of Adam and Beyond`_
            (default: False)
    .. _Adam\: A Method for Stochastic Optimization:
        https://arxiv.org/abs/1412.6980
    .. _Decoupled Weight Decay Regularization:
        https://arxiv.org/abs/1711.05101
    .. _On the Convergence of Adam and Beyond:
        https://openreview.net/forum?id=ryQu7f-RZ
    """
 
    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8,
                 weight_decay=1e-2, amsgrad=False):
        if not 0.0 <= lr:
            raise ValueError("Invalid learning rate: {}".format(lr))
        if not 0.0 <= eps:
            raise ValueError("Invalid epsilon value: {}".format(eps))
        if not 0.0 <= betas[0] < 1.0:
            raise ValueError("Invalid beta parameter at index 0: {}".format(betas[0]))
        if not 0.0 <= betas[1] < 1.0:
            raise ValueError("Invalid beta parameter at index 1: {}".format(betas[1]))
        if not 0.0 <= weight_decay:
            raise ValueError("Invalid weight_decay value: {}".format(weight_decay))
        defaults = dict(lr=lr, betas=betas, eps=eps,
                        weight_decay=weight_decay, amsgrad=amsgrad)
        super(AdamW, self).__init__(params, defaults)
 
    def __setstate__(self, state):
        super(AdamW, self).__setstate__(state)
        for group in self.param_groups:
            group.setdefault('amsgrad', False)
 
    @torch.no_grad()
    def step(self, closure=None):
        """Performs a single optimization step.
        Args:
            closure (callable, optional): A closure that reevaluates the model
                and returns the loss.
        """
        loss = None
        if closure is not None:
            with torch.enable_grad():
                loss = closure()
 
        for group in self.param_groups:
            params_with_grad = []
            grads = []
            exp_avgs = []
            exp_avg_sqs = []
            state_sums = []
            max_exp_avg_sqs = []
            state_steps = []
            amsgrad = group['amsgrad']
            beta1, beta2 = group['betas']
 
            for p in group['params']:
                if p.grad is None:
                    continue
                params_with_grad.append(p)
                if p.grad.is_sparse:
                    raise RuntimeError('AdamW does not support sparse gradients')
                grads.append(p.grad)
 
                state = self.state[p]
 
                # State initialization
                if len(state) == 0:
                    state['step'] = 0
                    # Exponential moving average of gradient values
                    state['exp_avg'] = torch.zeros_like(p, memory_format=torch.preserve_format)
                    # Exponential moving average of squared gradient values
                    state['exp_avg_sq'] = torch.zeros_like(p, memory_format=torch.preserve_format)
                    if amsgrad:
                        # Maintains max of all exp. moving avg. of sq. grad. values
                        state['max_exp_avg_sq'] = torch.zeros_like(p, memory_format=torch.preserve_format)
 
                exp_avgs.append(state['exp_avg'])
                exp_avg_sqs.append(state['exp_avg_sq'])
 
                if amsgrad:
                    max_exp_avg_sqs.append(state['max_exp_avg_sq'])
 
                # update the steps for each param group update
                state['step'] += 1
                # record the step after step update
                state_steps.append(state['step'])
 
            F.adamw(params_with_grad,
                    grads,
                    exp_avgs,
                    exp_avg_sqs,
                    max_exp_avg_sqs,
                    state_steps,
                    amsgrad=amsgrad,
                    beta1=beta1,
                    beta2=beta2,
                    lr=group['lr'],
                    weight_decay=group['weight_decay'],
                    eps=group['eps'])
 
        return loss

四、实例说明（我是linux）:

不大不小鸭

关注

22
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
秒杀——pytorch1.8报错 UnboundLocalError: local variable ‘beta1‘ referenced before assignment（adamw.py）

变量在被引用之前未被赋值。这通常意味着在代码中没有为。变量赋初始值就被引用了。
复制链接

扫一扫