深度强化学习（DRL）学习笔记（随缘更新，已更新完第6章双Q学习）

流荧静水

已于 2022-11-06 14:51:29 修改

阅读量743

点赞数

分类专栏：人工智能文章标签：人工智能深度学习 python pytorch

于 2022-03-27 11:38:50 首次发布

本文链接：https://blog.csdn.net/weixin_43912738/article/details/123770388

版权

本文是深度强化学习DRL的学习笔记，主要探讨了SARSA算法，包括表格形式的SARSA、与Q学习的区别、神经网络形式的SARSA以及多部TD目标。此外，还介绍了经验回放、优先经验回放、高估问题及其解决方案，特别是双Q学习算法，以及如何缓解最大化导致的高估问题。

摘要由CSDN通过智能技术生成

本次前言

查看之前1-4章
欢迎关注我的个人公众号右转的第二排架子，里面（将）有深度强化学习的笔记

概念、参数出处或者定义（方便理解和查阅）

第五章—价值网络：使用神经网络 $q (s, a; w)$ 来近似 $Q_\pi(s,a)$ ，这个神经网络就是价值网络
第六章—优先经验回放：对经验回放数组中每一个元组赋予一个权重，然后根据这个权重进行抽样
第六章—目标网络：用来切断自举，使用该网络计算TD目标

第五章 SARSA算法

SARSA的目的是学习动作价值函数 $Q_\pi(s,a)$ ，现在 $Q_\pi$ 通常被用于评价策略的好坏，而非控制智能体， $Q_\pi$ (Critic裁判)常与策略函数 $\pi$ （Actor演员）结合使用，被称作Actor-Critic方法（这玩意真的很重要，记住了）

表格形式的SARSA（State-Action-Reward-State-Action）

在这里插入图片描述

还是用回上面那个图，就是备注 $Q_*$ 改成 $Q_\pi$ ，这里懒得再截图了
首先，我们要知道 $Q_\pi$ 如果采取的 $\pi$ 策略不一样，那么表格的值就会变化（可能表格元素会变大也会变小）。我们想用表格 $q$ 近似上述的 $Q_\pi$
推导表格形式的SARSA学习算法：由贝尔曼方程
$Q_\pi(s_t,a_t) = \mathbb{E}_{S_{t+1},A_{t+1}}\Big[R_t + \gamma \cdot \max_{A \in \mathcal{A}}Q_\pi(S_{t+1}, A) | S_t = s_t,A_t = a_t\Big]$ 1.左边 $Q_\pi(s_t,a_t)$ 近似成 $q(s_t,a_t)$ ， $q(s_t,a_t)$ 代表表格 $t$ 时刻对 $Q_\pi(s_t,a_t)$ 做出的估计
2.方程右边的期望是关于下一时刻状态 $S_{t+1}$ 和动作 $A_{t+1}$ 求的，给定 $s_t,a_t$ ，环境会给出 $r_t$ 和新的状态 $s_{t+1}$ ，然后基于 $s_{t+1}$ 做随机抽样得到新的动作
$\tilde{a}_{t+1} \sim \pi(\cdot|s_{t+1})$ 用 $r_t,s_{t+1},\tilde{a}_{t+1}$ 做蒙特卡洛近似得到
$r_t + \gamma \cdot Q_\pi(s_{t+1},\tilde{a}_{t+1})$ 把 $Q_\pi$ 近似成 $q$ 得到TD目标
$\tilde{y}_t \triangleq r_t + \gamma \cdot q(s_{t+1},\tilde{a}_{t+1})$ 即它是表格再 $t + 1$ 时刻对 $Q_\pi(s_t,a_t)$ 做出的估计（根据之前那个北京到济南到上海那个例子再好好理解这个句话的意思）。然后因为 $\widehat{y}_t$ 是更可靠估计（到这里还不懂为什么的话建议重新看前面），因此用来更新 $q(s_t,a_t)$
$q(s_t,a_t) \leftarrow (1 - \alpha) \cdot q(s_t,a_t) + \alpha \cdot \tilde{y}_t$ SARSA用到了这个五元组 $(s_t,a_t,r_t,s_{t+1},\tilde{a}_{t+1})$ ，SARSA算法学到的 $q$ 依赖于策略 $\pi$ ，这是因为五元组中的 $\tilde{a}_{t+1}$ 是根据 $\pi(\cdot|s_{t+1})$ 抽样得到的
训练流程：当前表格记作 $q_{now}$ ，更新后表格记作 $q_{new}$
1.观测到当前状态 $s_t$ ，根据当前策略做抽样 $a_t \sim \pi_{now}(\cdot|s_t)$
2.把表格 $q_{now}$ 中第 $s_t,a_t)$ 位置上的元素记作
$\widehat{q}_t = q_{now}(s_t,a_t)$ 3.智能体执行动作 $a_t$ 之后，观测到奖励 $r_t$ 和新的状态 $s_{t+1}$
4.根据当前策略做抽样： $\tilde{a}_{t+1} \sim \pi_{now}(\cdot|s_{t+1})$ ，其中 $\tilde{a}_{t+1}$ 只是假想动作，智能体不予执行
5.把表格 $q_{now}$ 中第 $(s_{t+1},\tilde{a}_{t+1})$ 位置上的元素记作
$\widehat{q}_{t+1} = q_{now}(s_{t+1},\tilde{a}_{t+1})$ 6.计算TD目标和TD误差
$\widehat{y}_t = r_t + \gamma \cdot \widehat{q}_{t+1}\\ \delta_t = \widehat{q}_t - \widehat{y}_t$ 7.更新表格中 $s_t,a_t)$ 位置上的元素
$q_{new}(s_t,a_t) \leftarrow q_{now}(s_t, a_t) - \alpha \cdot \delta_t$ 8.某种算法更新策略函数

SARSA和Q学习对比

书上这不是一个小节，但是我觉得很重要就把它化为一个小节了
Q学习不依赖于 $\pi$ ，Q学习属于异策略，SARSA依赖于 $\pi$ ，属于同策略
Q学习是为了学到表格 $\tilde{Q}$ 即最优动作价值函数 $Q_*$ 的近似，而 $Q_*$ 与 $\pi$ 无关，因此收集经验无论是哪个行为策略 $\pi$ ，都不影响Q学习得到的 $Q$ ，因此Q学习允许行为策略区别于目标策略，允许使用经验回放
SARSA算法目标是学到表格 $q$ 即动作价值函数 $Q_\pi$ 的近似， $Q_\pi$ 用的 $\pi$ 函数不同，对应的 $Q_\pi$ 不同，经验回放数组里的经验是用过时的行为策略 $\pi_{old}$ 收集到的，与当前策略 $\pi_{now}$ 及其对应的价值 $Q_{\pi_{now}}$ 对应不上，因此不能使用经验回放

神经网络形式的SARSA

价值网络（重点概念）：如果状态空间 $\mathcal{S}$ 是无限集，显然用一张表格无法表示 $Q_\pi$ ，一种方案就是使用一个神经网络 $q (s, a; w)$ 来近似 $Q_\pi(s,a)$ ，理想情况下
$Q_\pi(s,a)\\ \forall s \in S, a \in A$ 神经网络 $q (s, a; w)$ 被称为价值网络。神经网络是人预先设定的，参数 $w$ 需要通过智能体与环境的交互学习

假如动作空间 $\mathcal{A}$ 为 $∣ A ∣$ 维向量，价值网络的输出就 $∣ A ∣$ 维的价值向量
算法推导
1.给定当前状态 $s_t$ ，智能体执行动作 $a_t$ ，环境会给出奖励 $r_t$

最低0.47元/天解锁文章

流荧静水

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习（DRL）学习笔记（随缘更新，已更新完第6章双Q学习）

文章目录本次前言第五章 SARSA算法表格形式的SARSA（State-Action-Reward-State-Action）SARSA和Q学习对比神经网络形式的SARSA多部TD目标本次前言1-4章第五章 SARSA算法SARSA的目的是学习动作价值函数Qπ(s,a)Q_\pi(s,a)Qπ(s,a)，现在QπQ_\piQπ通常被用于评价策略的好坏，而非控制智能体，QπQ_\piQπ(Critic裁判)常与策略函数π\piπ（Actor演员）结合使用，被称作Actor-Critic方法
复制链接

扫一扫