self.named_parameters()和weight_decay解释

为啥不能修改昵称啊

已于 2023-10-30 16:49:27 修改

阅读量321

点赞数

文章标签：机器学习 python

于 2023-10-30 16:45:14 首次发布

本文链接：https://blog.csdn.net/weixin_43845922/article/details/134122952

版权

params_decay = (p for name, p in self.named_parameters() if 'bias' not in name)
params_no_decay = (p for name, p in self.named_parameters() if 'bias' in name)

这段代码是在PyTorch中对模型的参数进行筛选，以便在优化器中为不同的参数组设置不同的权重衰减（通常称为L2正则化）。

具体来说：

self.named_parameters()：这是一个PyTorch模型中的方法，它返回一个迭代器，其中包含模型中每个参数的名称和值。
params_decay = (p for name, p in self.named_parameters() if 'bias' not in name)：这行代码创建了一个生成器，其中包含模型中所有不包含’bias’关键字的参数。这意味着它选择了所有非偏置参数。这些参数通常会有权重衰减。
params_no_decay = (p for name, p in self.named_parameters() if 'bias' in name)：这行代码创建了一个生成器，其中包含模型中所有包含’bias’关键字的参数。这意味着它选择了所有偏置参数。这些参数通常不会有权重衰减。

这样的筛选常用于深度学习中，因为通常我们不对偏置参数应用权重衰减，而只对权重参数应用。这可以帮助防止过拟合，并确保模型的稳定性。

self.optimizer = torch.optim.AdamW(
            [{'params': params_decay, 'lr': lr, 'weight_decay': weight_decay},
             {'params': params_no_decay, 'lr': lr}], amsgrad=True)