第七章的代码:NoisyDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)
摘要
本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析!具体内容请阅读蘑菇书EasyRL!
# -*- coding: utf-8 -*-
# 1. 定义算法
'''NoisyDQN 是在 DQN 的基础上进行改进,主要就是通过在训练网络的时候加上一些噪声参数,
可以用较小的额外计算成本,在强化学习算法上获得更优的结果。
配置和 DQN 基本一致,只是在模型定义的时候,在模型中加入了一些噪声参数。
'''
# 1.1、 定义模型
'''这里使用了一个三层的MLP,不同的是其中加入了一些噪声参数,
就是每个权值weight和偏置bias中都有额外的参数mu和sigma,这里仅供参考。'''
import math
import torch
import torch.nn as nn
import torch.nn.functional as F
class NoisyLinear(nn.Module):
def __init__(self, input_dim, output_dim, std_init=0.4):
super(NoisyLinear, self).__init__()
self.input_dim = input_dim
self.output_dim = output_dim
'''作用:保存初始化噪声的标准差。'''
self.std_init = std_init
'''创建一个大小为 (output_dim, input_dim) 的浮点型参数,用来表示权重的均值。'''
self.weight_mu = nn.Parameter(torch.FloatTensor(output_dim, input_dim))
'''创建同样形状的参数,用来表示权重的标准差(噪声系数)。'''
self.weight_sigma = nn.Parameter(torch.FloatTensor(output_dim, input_dim))
'''注册一个缓冲变量(非可训练参数),用于存储噪声采样的值。
数值例子:同样形状为 (2,3);缓冲区不参与梯度更新。
比如初始时可能为全零数组 [ [0,0,0], [0,0,0] ]。'''
self.register_buffer('weight_epsilon', torch.FloatTensor(output_dim, input_dim))
'''作用:创建大小为 (output_dim,) 的偏置均值参数。'''
self.bias_mu = nn.Parameter(torch.FloatTensor(output_dim))
'''作用:创建偏置的标准差参数。'''
self.bias_sigma = nn.Parameter(torch.FloatTensor(output_dim))
'''作用:注册偏置噪声的缓冲变量,形状为 (2,)。'''
self.register_buffer('bias_epsilon', torch.FloatTensor(output_dim))
'''作用:调用 reset_parameters 方法初始化权重和偏置的均值和标准差。'''
self.reset_parameters()
'''作用:调用 reset_noise 方法生成初始噪声(epsilon 值)。'''
self.reset_noise()
def forward(self, x):
if self.training:
'''
作用:计算带噪声的权重:均值 + 标准差 × 噪声。
数值例子:
- 假设 self.weight_mu = [[0.2, -0.1, 0.3], [0.0, 0.1, -0.2]]
- self.weight_sigma = [[0.05, 0.05, 0.05], [0.05, 0.05, 0.05]]
- 假设 self.weight_epsilon 缓冲区采样的噪声为 [[1, -1, 0.5], [0.2, 0.0, -0.3]]
- 计算时:weight = weight_mu + weight_sigma * noise
例如第一个元素:0.2 + 0.05 * 1 = 0.25,依此类推得到最终 weight。
注意:
- 代码中调用了 torch.tensor(self.weight_epsilon),
这通常是不必要的(因为 weight_epsilon 已经是 tensor),但这里没有改变数值,
只是包装了一层张量。'''
# weight = self.weight_mu + self.weight_sigma.mul(torch.tensor(self.weight_epsilon))
weight = self.weight_mu + self.weight_sigma.mul(self.weight_epsilon.clone().detach())
'''
作用:同理计算带噪声的偏置。
数值例子:
- 假设 bias_mu = [0.1, -0.1],bias_sigma = [0.02, 0.02]
- 假设 bias_epsilon = [0.5, -1.0]
- 则 bias = [0.1 + 0.02×0.5, -0.1 + 0.02×(-1.0)]
= [0.1 + 0.01, -0.1 - 0.02]
= [0.11, -0.12].
'''
# bias = self.bias_mu + self.bias_sigma.mul(torch.tensor(self.bias_epsilon))
bias = self.bias_mu + self.bias_sigma.mul(self.bias_epsilon.clone().detach())
else:
weight = self.weight_mu
bias = self.bias_mu
return F.linear(x, weight, bias)
def reset_parameters(self):
'''
作用:计算均值参数初始化的范围。
数值例子:
- self.weight_mu.size(1) 返回输入维度,这里为 3。
- mu_range = 1 / sqrt(3) ≈ 1 / 1.732 = 0.577。'''
mu_range = 1 / math.sqrt(self.weight_mu.size(1))
'''作用:将 weight_mu 中的数据用均匀分布随机填充,范围为 [-0.577, 0.577]。
'''
self.weight_mu.data.uniform_(-mu_range, mu_range)
'''
作用:将 weight_sigma 的所有值填充为同一常数。
数值例子:
- self.std_init = 0.4,self.weight_sigma.size(1)=3。
- 计算值 = 0.4 / sqrt(3) ≈ 0.4 / 1.732 = 0.231.
- 因此所有 weight_sigma 元素被设置为 0.231。
'''
'''
使用 size(1) 返回的是输入维度(即每个输出神经元接收多少个输入)。
例如,如果 self.weight_mu 的形状是 (2, 3),那么 self.weight_mu.size(1) 返回 3;
这通常用来根据输入数目进行归一化。
'''
self.weight_sigma.data.fill_(self.std_init / math.sqrt(self.weight_sigma.size(1)))
'''
使用 size(0) 返回的是向量的长度,也就是输出维度。
例如,如果 self.bias_sigma 的形状是 (2,),那么 self.bias_sigma.size(0) 返回 2。
'''
self.bias_mu.data.uniform_(-mu_range, mu_range)
self.bias_sigma.data.fill_(self.std_init / math.sqrt(self.bias_sigma.size(0)))
def reset_noise(self):
"""作用:定义一个方法,用于重新采样噪声,更新 weight_epsilon 与 bias_epsilon。"""
'''
作用:调用 _scale_noise 方法生成形状为 input_dim(这里 3)的噪声向量。
数值例子:假设 _scale_noise(3) 生成一个向量,如 [0.5, -0.3, 1.2](实际值依赖随机采样)。
'''
epsilon_in = self._scale_noise(self.input_dim)
'''
作用:生成形状为 output_dim(这里 2)的噪声向量。
数值例子:可能生成 [ -0.7, 0.9 ]。
'''
epsilon_out = self._scale_noise(self.output_dim)
self.weight_epsilon.copy_(epsilon_out.ger(epsilon_in))
self.bias_epsilon.copy_(self._scale_noise(self.output_dim))
def _scale_noise(self, size):
"""作用:定义一个辅助函数,根据给定 size 生成缩放后的噪声。"""
'''作用:生成一个形状为 (size,) 的张量,服从标准正态分布。
数值例子:若 size=3,可能生成 x = [ 0.2, -1.0, 0.5 ](每次随机)。'''
x = torch.randn(size)
'''
x.sign() 返回每个元素的符号(1 或 -1 或 0)。
x.abs().sqrt() 先取绝对值再开平方。
最后两者逐元素相乘,相当于保留原始符号,同时对幅值开平方。
数值例子:
- 对于 x = [0.2, -1.0, 0.5]
- x.sign() = [1, -1, 1]
- x.abs() = [0.2, 1.0, 0.5],x.abs().sqrt() = [√0.2, 1.0, √0.5] ≈ [0.447, 1.0, 0.707]
- 相乘后 x ≈ [0.447, -1.0, 0.707].
'''
x = x.sign().mul(x.abs().sqrt())
return x
class NoisyMLP(nn.Module):
def __init__(self, input_dim,output_dim,hidden_dim=128):
super(NoisyMLP, self).__init__()
self.fc1 = nn.Linear(input_dim, hidden_dim)
self.noisy_fc2 = NoisyLinear(hidden_dim, hidden_dim)
self.noisy_fc3 = NoisyLinear(hidden_dim, output_dim)
def forward(self, x):
x = F.relu(self.fc1(x))
x = F.relu(self.noisy_fc2(x))
x = self.noisy_fc3(x)
return x
def reset_noise(self):
self.noisy_fc2.reset_noise()
self.noisy_fc3.reset_noise()
# 1.2、定义经验回放
from collections import deque
import random
class ReplayBuffer(object):
def __init__(self, capacity: int) -> None:
self.capacity = capacity
self.buffer = deque(maxlen=self.capacity)
def push(self,transitions):
''' 存储transition到经验回放中
'''
self.buffer.append(transitions)
def sample(self, batch_size: int, sequential: bool = False):
if batch_size > len(self.buffer): # 如果批量大小大于经验回放的容量,则取经验回放的容量
batch_size = len(self.buffer)
if sequential: # 顺序采样
rand = random.randint(0, len(self.buffer) - batch_size)
batch = [self.buffer[i] for i in range(rand, rand + batch_size)]
return zip(*batch)
else: # 随机采样
batch = random.sample(self.buffer, batch_size)
return zip(*batch)
def clear(self):
''' 清空经验回放
'''
self.buffer.clear()
def __len__(self):
''' 返回当前存储的量
'''
return len(self.buffer)
# 1.3、模型算法定义
import torch
import torch.optim as optim
import math
import numpy as np
class NoisyDQN:
def __init__(self, model, memory, cfg) -> None:
self.n_actions = cfg.n_actions
self.device = torch.device(cfg.device)
self.gamma = cfg.gamma
## e-greedy策略相关参数
self.sample_count = 0 # 用于epsilon的衰减计数
self.epsilon = cfg.epsilon_start
self.epsilon_start = cfg.epsilon_start
self.epsilon_end = cfg.epsilon_end
self.epsilon_decay = cfg.epsilon_decay
self.batch_size = cfg.batch_size
self.target_update = cfg.target_update
self.device = torch.device(cfg.device)
self.policy_net = model.to(self.device)
self.target_net = model.to(self.device)
## 复制参数到目标网络
for target_param, param in zip(self.target_net.parameters(),self.policy_net.parameters()):
target_param.data.copy_(param.data)
self.optimizer = optim.Adam(self.policy_net.parameters(), lr=cfg.lr)
self.memory = memory ## 经验回放
self.update_flag = False
def sample_action(self, state):
''' sample action with e-greedy policy
'''
self.sample_count += 1
# epsilon 指数衰减
self.epsilon = self.epsilon_end + (self.epsilon_start - self.epsilon_end) * \
math.exp(-1. * self.sample_count / self.epsilon_decay)
if random.random() > self.epsilon:
with torch.no_grad():
if isinstance(state, tuple):
state = state[0]
else:
state = state
state = torch.tensor(state, device=self.device, dtype=torch.float32).unsqueeze(dim=0)
q_values = self.policy_net(state)
action = q_values.max(1)[1].item() # 根据Q值选择动作
else:
action = random.randrange(self.n_actions)
return action
@torch.no_grad()
def predict_action(self, state):
if isinstance(state, tuple):
state = state[0]
else:
state = state
state = torch.tensor(state, device=self.device, dtype=torch.float32).unsqueeze(dim=0)
q_value = self.policy_net(state)
action = q_value.max(1)[1].item()
return action
def update(self):
if len(self.memory) < self.batch_size: # 不满足一个批量时,不更新策略
return
else:
if not self.update_flag:
print("Begin to update!")
self.update_flag = True
# beta = min(1.0, self.beta_start + self.sample_count * (1.0 - self.beta_start) / self.beta_frames)
state_batch, action_batch, reward_batch, next_state_batch, done_batch = self.memory.sample(
self.batch_size)
processed_state_batch = []
for s in state_batch:
if isinstance(s, tuple):
# 如果元素是元组,则取元组的第一个元素
processed_state_batch.append(s[0])
else:
processed_state_batch.append(s)
# state_batch, action_batch, reward_batch, next_state_batch, done_batch, weights_batch, indices = self.memory.sample(self.batch_size, beta)
state_batch = torch.tensor(np.array(processed_state_batch), device=self.device, dtype=torch.float)
action_batch = torch.tensor(action_batch, device=self.device).unsqueeze(1)
reward_batch = torch.tensor(reward_batch, device=self.device, dtype=torch.float).unsqueeze(1)
next_state_batch = torch.tensor(np.array(next_state_batch), device=self.device, dtype=torch.float) # shape(batchsize,n_states)
done_batch = torch.tensor(done_batch, device=self.device, dtype=torch.float).unsqueeze(1)
# weights_batch = torch.tensor(weights_batch, device=self.device, dtype=torch.float)
q_value_batch = self.policy_net(state_batch).gather(dim=1, index=action_batch) # shape(batchsize,1),requires_grad=True
next_max_q_value_batch = self.target_net(next_state_batch).max(1)[0].detach().unsqueeze(1)
expected_q_value_batch = reward_batch + self.gamma * next_max_q_value_batch* (1-done_batch)
loss = nn.MSELoss()(q_value_batch, expected_q_value_batch) # shape same to
# 反向传播
self.optimizer.zero_grad()
loss.backward()
# 梯度截断,防止梯度爆炸
for param in self.policy_net.parameters():
param.grad.data.clamp_(-1, 1)
self.optimizer.step()
if self.sample_count % self.target_update == 0: # 更新 target_net
self.target_net.load_state_dict(self.policy_net.state_dict())
## 噪声参数重置
self.policy_net.reset_noise()
self.target_net.reset_noise()
# 2、 定义训练
def train(cfg, env, agent):
''' 训练
'''
print("开始训练!")
rewards = [] # 记录所有回合的奖励
steps = []
for i_ep in range(cfg.train_eps):
ep_reward = 0 # 记录一回合内的奖励
ep_step = 0
state = env.reset() # 重置环境,返回初始状态
for _ in range(cfg.max_steps):
ep_step += 1
action = agent.sample_action(state) # 选择动作
next_state, reward, done, truncated, info = env.step(action)
# next_state, reward, done, _ = env.step(action) # 更新环境,返回transition
agent.memory.push((state, action, reward,next_state, done)) # 保存transition
state = next_state # 更新下一个状态
agent.update() # 更新智能体
ep_reward += reward # 累加奖励
if done:
break
if (i_ep + 1) % cfg.target_update == 0: # 智能体目标网络更新
agent.target_net.load_state_dict(agent.policy_net.state_dict())
steps.append(ep_step)
rewards.append(ep_reward)
if (i_ep + 1) % 10 == 0:
print(f"回合:{i_ep+1}/{cfg.train_eps},奖励:{ep_reward:.2f},Epislon:{agent.epsilon:.3f}")
print("完成训练!")
env.close()
return {'rewards':rewards}
def test(cfg, env, agent):
print("开始测试!")
rewards = [] # 记录所有回合的奖励
steps = []
for i_ep in range(cfg.test_eps):
ep_reward = 0 # 记录一回合内的奖励
ep_step = 0
state = env.reset() # 重置环境,返回初始状态
for _ in range(cfg.max_steps):
ep_step+=1
action = agent.predict_action(state) # 选择动作
next_state, reward, done, truncated, info = env.step(action)
# next_state, reward, done, _ = env.step(action) # 更新环境,返回transition
state = next_state # 更新下一个状态
ep_reward += reward # 累加奖励
if done:
break
steps.append(ep_step)
rewards.append(ep_reward)
print(f"回合:{i_ep+1}/{cfg.test_eps},奖励:{ep_reward:.2f}")
print("完成测试")
env.close()
return {'rewards':rewards}
# 3. 定义环境
import gym
import os
def all_seed(env,seed = 1):
''' 万能的seed函数
'''
if not hasattr(env, 'seed'):
def seed_fn(self, seed=None):
env.reset(seed=seed)
return [seed]
env.seed = seed_fn.__get__(env, type(env))
# env.seed(seed) # env config
np.random.seed(seed)
random.seed(seed)
torch.manual_seed(seed) # config for CPU
torch.cuda.manual_seed(seed) # config for GPU
os.environ['PYTHONHASHSEED'] = str(seed) # config for python scripts
# config for cudnn
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False
torch.backends.cudnn.enabled = False
def env_agent_config(cfg):
env = gym.make(cfg.env_name) # 创建环境
if cfg.seed !=0:
all_seed(env,seed=cfg.seed)
n_states = env.observation_space.shape[0]
n_actions = env.action_space.n
print(f"状态空间维度:{n_states},动作空间维度:{n_actions}")
cfg.n_actions = env.action_space.n ## set the env action space
model = NoisyMLP(n_states, n_actions, hidden_dim = cfg.hidden_dim) # 创建模型
memory = ReplayBuffer(cfg.buffer_size)
agent = NoisyDQN(model,memory,cfg)
return env,agent
# 4、设置参数
import argparse
import matplotlib.pyplot as plt
import seaborn as sns
class Config():
def __init__(self) -> None:
self.env_name = "CartPole-v1" # 环境名字
self.new_step_api = True # 是否用gym的新api
self.wrapper = None
self.render = False
self.algo_name = "NoisyDQN" # 算法名字
self.mode = "train" # train or test
self.seed = 0 # 随机种子
self.device = "cpu" # device to use
self.train_eps = 100 # 训练的回合数
self.test_eps = 20 # 测试的回合数
self.eval_eps = 10 # 评估的回合数
self.eval_per_episode = 5 # 每个回合的评估次数
self.max_steps = 200 # 每个回合的最大步数
self.load_checkpoint = False
self.load_path = "tasks" # 加载模型的路径
self.show_fig = False # 是否展示图片
self.save_fig = True # 是否存储图片
# 设置epsilon值
self.epsilon_start = 0.95 # 起始的epsilon值
self.epsilon_end = 0.01 # 终止的epsilon值
self.epsilon_decay = 500 # 衰减率
self.hidden_dim = 256
self.gamma = 0.95
self.lr = 0.0001
self.buffer_size = 100000 # 经验回放的buffer大小
self.batch_size = 64 # batch size
self.target_update = 4 # 目标网络更新频率
self.value_layers = [
{'layer_type': 'linear', 'layer_dim': ['n_states', 256],
'activation': 'relu'},
{'layer_type': 'linear', 'layer_dim': [256, 256],
'activation': 'relu'},
{'layer_type': 'linear', 'layer_dim': [256, 'n_actions'],
'activation': 'none'}]
def smooth(data, weight=0.9):
'''用于平滑曲线,类似于Tensorboard中的smooth曲线
'''
last = data[0]
smoothed = []
for point in data:
smoothed_val = last * weight + (1 - weight) * point # 计算平滑值
smoothed.append(smoothed_val)
last = smoothed_val
return smoothed
def plot_rewards(rewards,cfg, tag='train'):
''' 画图
'''
sns.set()
plt.figure() # 创建一个图形实例,方便同时多画几个图
plt.title(f"{tag}ing curve on {cfg.device} of {cfg.algo_name} for {cfg.env_name}")
plt.xlabel('epsiodes')
plt.plot(rewards, label='rewards')
plt.plot(smooth(rewards), label='smoothed')
plt.legend()
plt.show()
# 5、开始训练
# 获取参数
cfg = Config()
# 训练
env, agent = env_agent_config(cfg)
res_dic = train(cfg, env, agent)
plot_rewards(res_dic['rewards'], cfg, tag="train")
# 测试
res_dic = test(cfg, env, agent)
plot_rewards(res_dic['rewards'], cfg, tag="test") # 画出结果