DQN学习步骤

最新推荐文章于 2024-06-24 00:47:07 发布

Kaninzr

最新推荐文章于 2024-06-24 00:47:07 发布

阅读量691

点赞数

初始化容量为 N 的经验池 D

使用随机值初始化作为 $Q$ 神经网络的权值 θ

初始化目标神经网络 $\hat{Q}$ ，结构以及初始化权重 $\theta^{-}$ 和 $Q$ 相同

For 游戏片段 = 1，循环M次:

初始化序列 $s_{1} = \{x_{1}\}$ 并预处理 $\phi_{1} =\phi(s_{1})$

For t =1 ,循环T次:

根据概率 $\varepsilon$ 选择一个随机的动作 $a_{t}$
或者根据 $argmax_{a}Q(\phi (s_{t},a;\theta ))$ 的取值来选择动作 $a_{t}$ ，
在环境中执行 $a_{t}$ ，得到奖励 $r_{t}$ 和图像 $x_{t+1}$

使 $s_{t+1}=s_{t}$ , $a_{t}$ , $x_{t+1}$ 并使 $\phi_{t+1} =\phi(s_{t+1})$

将结果 $(\phi_{t},a_{t},r_{t},\phi_{t+1})$ 存入 $D$

随机从D中取出minibatch个状态

y_{j} = {\begin{matrix} r_{j} & 如果游戏片段在第j+1步结束 \\ r_{j} + γ m a x_{a^{'}} \hat{Q} (ϕ_{j + 1}, a^{'},; θ^{-}) & 其他 \end{matrix}

$y_{j}=\left\{\begin{matrix} r_{j} & \text{如果游戏片段在第j+1步结束}\\ r_{j}+\gamma max_{a'}\hat{Q}(\phi _{j+1},a',;\theta ^{-}) & \text{其他} \end{matrix}\right.$

梯度下降更新 $\theta$ ，损失函数为 $(y_{j}-Q(\phi_{j},a_{j};\theta))^{2}$

每 $C$ 步使 $\hat{Q}=Q$

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kaninzr

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
DQN学习步骤

初始化容量为 N 的经验池 D使用随机值初始化作为 QQQ神经网络的权值 θ初始化目标神经网络Q^Q^\hat{Q}，结构以及初始化权重 θ−θ−\theta^{-}和 QQQ 相同For 游戏片段 = 1，循环M次: 初始化序列 s1={x1}s1={x1}s_{1} = \{x_{1}\} 并预处理ϕ1=ϕ(s1)ϕ1=ϕ(s1)\phi_{1} =\phi(s_{1})...
复制链接

扫一扫