pytorch学习笔记：优化器

最新推荐文章于 2022-04-30 12:00:00 发布

化茧成蝶梦成真

最新推荐文章于 2022-04-30 12:00:00 发布

阅读量202

点赞数 1

文章标签： python 深度学习机器学习

本文链接：https://blog.csdn.net/weixin_45711264/article/details/104880257

版权

pytorch的优化器：管理并更新模型中可学习参数的值，使得模型输出更接近真实标签
导数：函数在指定坐标轴上的变化率
方向导数：指定方向上的变化率
梯度：一个向量，方向为方向导数取得最大值的方

基本属性

• defaults：优化器超参数，比如学习率，动量等
• state：参数的缓存，如momentum的缓存
• params_groups：管理的参数组，是一个列表，列表的元素是一个字典，其中键为params的字典存储着可学习调整的参数。
• _step_count：记录更新次数，学习率调整中使用

class Optimizer(object): 
	def __init__(self, params, defaults): 
		self.defaults = defaults 
		self.state = defaultdict(dict) 
		self.param_groups = []
		param_groups = [{'params': param_groups}]

基本方法

• zero_grad()：清空所管理参数的梯度，这是因为pytorch特性：张量梯度不自动清零，所以要手动加上这条代码，在梯度反向传播之前。

class Optimizer(object):
	def zero_grad(self): 
		for group in self.param_groups: 
			for p in group['params']: 
				if p.grad is not None: 
					p.grad.detach_() 
					p.grad.zero_()

•step()：执行一步更新，就是更新可学习的参数，让输出更靠近真实值，方法有很多
• add_param_group()：添加参数组，在模型finetune中会使用

class Optimizer(object): 
	def add_param_group(self, param_group): 
		for group in self.param_groups: 
			param_set.update(set(group['params’]))
		self.param_groups.append(param_group)

• state_dict()：获取优化器当前状态信息字典
• load_state_dict() ：加载状态信息字典
这两个方法在模型的断点续训练时会使用，里面存储着模型的缓存信息以及可学习参数。state也是一个字典，键是params所在的内存地址。其实state是通过参数的内存地址来定位参数的。
只有执行了更新之后，state里面才会存储缓存信息，比如momentum_buffer,这是动量方法中会使用的缓存信息。

class Optimizer(object):
	def state_dict(self): 
		return { 'state': packed_state, 'param_groups':
		 		param_groups, }
	def load_state_dict(self, state_dict):