深度强化学习（四）SARSA

总是摸鱼的猫

已于 2024-03-16 22:11:12 修改

阅读量870

点赞数 20

分类专栏：深度强化学习· 文章标签：算法

于 2024-03-12 17:33:54 首次发布

本文链接：https://blog.csdn.net/weixin_54255111/article/details/136658496

版权

深度强化学习· 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

深度强化学习（四）SARSA算法

一.SARSA

假设状态空间 $\mathcal{S}$ 和动作空间 $\mathcal{A}$ 都是有限集, 即集合中元素数量有限。比如, $\mathcal{S}$ 中一共有 3 种状态, $\mathcal{A}$ 中一共有 4 种动作。那么动作价值函数 $Q_\pi(s, a)$ 可以表示为一个 $\times 4$ 的表格。该表格与一个策略函数 $\pi(a \mid s)$ 相关联; 如果 $\pi$ 发生变化,表格 $Q_\pi$ 也会发生变化。

我们用表格 $q$ 近似 $Q_\pi$ 。首先初始化 $q$ , 可以让它是全零的表格。然后用表格形式的 SARSA 算法更新 $q$ ,每次更新表格的一个元素。最终 $q$ 收敛到 $Q_\pi$ 。

SARSA 算法由下面的贝尔曼方程推导出 :
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[R_t+\gamma \cdot Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]$

我们对贝尔曼方程左右两边做近似:

方程左边的 $Q_\pi\left(s_t, a_t\right)$ 可以近似成 $q\left(s_t, a_t\right) 。 q\left(s_t, a_t\right)$ 是表格在 $t$ 时刻对 $Q_\pi\left(s_t, a_t\right)$ 做出的估计。
方程右边的期望是关于下一时刻状态 $S_{t+1}$ 和动作 $A_{t+1}$ 求的。给定当前状态 $s_t$ , 智能体执行动作 $a_t$ , 环境会给出奖励 $r_t$ 和新的状态 $s_{t+1}$ 。然后基于 $s_{t+1}$ 做随机抽样,得到新的动作

$\tilde{a}_{t+1} \sim \pi\left(\cdot \mid s_{t+1}\right) .$

用观测到的 $r_t 、 s_{t+1}$ 和计算出的 $\tilde{a}_{t+1}$ 对期望做蒙特卡洛近似, 得到:
$r_t+\gamma \cdot Q_\pi\left(s_{t+1}, \tilde{a}_{t+1}\right) .$

进一步把公式 (5.1) 中的 $Q_\pi$ 近似成 $q$ , 得到

$\widehat{y}_t \triangleq r_t+\gamma \cdot q\left(s_{t+1}, \tilde{a}_{t+1}\right) .$

把它称作 TD 目标。它是表格在 $t + 1$ 时刻对 $Q_\pi\left(s_t, a_t\right)$ 做出的估计。
$q\left(s_t, a_t\right)$ 和 $\widehat{y}_t$ 都是对动作价值 $Q_\pi\left(s_t, a_t\right)$ 的估计。由于 $\widehat{y}_t$ 部分基于真实观测到的奖励 $r_t$ ,我们认为 $\widehat{y}_t$ 是更可靠的估计, 所以鼓励 $q\left(s_t, a_t\right)$ 趋近 $\widehat{y}_t$ 。更新表格 $\left(s_t, a_t\right)$ 位置上的元素:
$q\left(s_t, a_t\right) \leftarrow(1-\alpha) \cdot q\left(s_t, a_t\right)+\alpha \cdot \widehat{y}_t .$

这样可以使得 $q\left(s_t, a_t\right)$ 更接近 $\widehat{y}_t$ 。 SARSA 算法用到了这个五元组： $\left(s_t, a_t, r_t, s_{t+1}, \tilde{a}_{t+1}\right)$ 。SARSA 算法学到的 $q$ 依赖于策略 $\pi$ , 这是因为五元组中的 $\tilde{a}_{t+1}$ 是根据 $\pi\left(\cdot \mid s_{t+1}\right)$ 抽样得到的。

训练流程：设当前表格为 $q_{\text {now }}$ , 当前策略为 $\pi_{\text {now }}$ 每一轮更新表格中的一个元素,把更新之后的表格记作 $q_{\text {new }}$ 。

观测到当前状态 $s_t$ , 根据当前策略做抽样: $a_t \sim \pi_{\text {now }}\left(\cdot \mid s_t\right)$ 。
把表格 $q_{\text {now }}$ 中第 $\left(s_t, a_t\right)$ 位置上的元素记作:

$\widehat{q}_t=q_{\text {now }}\left(s_t, a_t\right) .$

智能体执行动作 $a_t$ 之后, 观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
根据当前策略做抽样: $\tilde{a}_{t+1} \sim \pi_{\text {now }}\left(\cdot \mid s_{t+1}\right)$ 。注意, $\tilde{a}_{t+1}$ 只是假想的动作, 智能体不予执行。
把表格 $q_{\text {now }}$ 中第 $\left(s_{t+1}, \tilde{a}_{t+1}\right)$ 位置上的元素记作:

$\widehat{q}_{t+1}=q_{\text {now }}\left(s_{t+1}, \tilde{a}_{t+1}\right) .$

计算 TD 目标和 TD 误差:

$\widehat{y}_t=r_t+\gamma \cdot \widehat{q}_{t+1}, \quad \delta_t=\widehat{q}_t-\widehat{y}_t .$

更新表格中 $\left(s_t, a_t\right)$ 位置上的元素:

$q_{\text {new }}\left(s_t, a_t\right) \leftarrow q_{\text {now }}\left(s_t, a_t\right)-\alpha \cdot \delta_t .$

用某种算法更新策略函数。该算法与 SARSA 算法无关。

二.神经网络形式的SARSA

**价值网络：**如果状态空间 $\mathcal{S}$ 是无限集, 那么我们无法用一张表格表示 $Q_\pi$ , 否则表格的行数是无穷。一种可行的方案是用一个神经网络 $\boldsymbol{w})$ 来近似 $Q_\pi(s, a)$ ; 理想情况下，
$\boldsymbol{w})=Q_\pi(s, a), \quad \forall s \in \mathcal{S}, a \in \mathcal{A}$
训练流程 : 设当前价值网络的参数为 $\boldsymbol{w}_{\mathrm{now}}$ , 当前策略为 $\pi_{\mathrm{now}}$ 每一轮训练用五元组 $\left(s_t, a_t, r_t, s_{t+1}, \tilde{a}_{t+1}\right)$ 对价值网络参数做一次更新。

观测到当前状态 $s_t$ , 根据当前策略做抽样: $a_t \sim \pi_{\text {now }}\left(\cdot \mid s_t\right)$ 。
用价值网络计算 $\left(s_t, a_t\right)$ 的价值:

$\widehat{q}_t=q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) .$

智能体执行动作 $a_t$ 之后, 观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
根据当前策略做抽样: $\tilde{a}_{t+1} \sim \pi_{\mathrm{now}}\left(\cdot \mid s_{t+1}\right)$ 。注意, $\tilde{a}_{t+1}$ 只是假想的动作, 智能体不予执行。
用价值网络计算 $\left(s_{t+1}, \tilde{a}_{t+1}\right)$ 的价值:

$\widehat{q}_{t+1}=q\left(s_{t+1}, \tilde{a}_{t+1} ; \boldsymbol{w}_{\text {now }}\right) .$

计算 TD 目标和 TD 误差:

$\widehat{y}_t=r_t+\gamma \cdot \widehat{q}_{t+1}, \quad \delta_t=\widehat{q}_t-\widehat{y}_t .$

对价值网络 $q$ 做反向传播, 计算 $q$ 关于 $\boldsymbol{w}$ 的梯度: $\nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right)$ 。
更新价值网络参数:

$\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_t \cdot \nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) .$

用某种算法更新策略函数。该算法与 SARSA 算法无关。

三.多步TD目标

在第二节我们证明了以下定理

设 $R_k$ 是 $S_k 、 A_k 、 S_{k+1}$ 的函数, $\forall k=1, \cdots, n$ 。那么
$\underbrace{Q_\pi\left(s_t, a_t\right)}_{U_t \text { 的期望 }}=\mathbb{E}_{S_{t+1}, A_{t+1}, \cdots, S_{t+m}, A_{t+m}}[\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m \cdot \underbrace{Q_\pi\left(S_{t+m}, A_{t+m}\right)}_{U_{t+m} \text { 的期望 }} \mid S_t=s_t, A_t=a_t] .$

已知当前状态 $s_t$ , 用策略 $\pi$ 控制智能体与环境交互 $m$ 次, 得到轨迹
$a_t,r_t, s_{t+1}, a_{t+1}, r_{t+1}, \cdots, s_{t+m-1}, a_{t+m-1}, r_{t+m-1}, s_{t+m}, a_{t+m} .$

在 $t + m$ 时刻, 用观测到的轨迹对上式中的期望做蒙特卡洛近似, 把近似的结果记作:
$\left(\sum_{i=0}^{m-1} \gamma^i r_{t+i}\right)+\gamma^m \cdot Q_\pi\left(s_{t+m}, a_{t+m}\right) .$

进一步用 $q\left(s_{t+m}, a_{t+m} ; \boldsymbol{w}\right)$ 近似 $Q_\pi\left(s_{t+m}, a_{t+m}\right)$ , 得到:
$\widehat{y}_t \triangleq\left(\sum_{i=0}^{m-1} \gamma^i r_{t+i}\right)+\gamma^m \cdot q\left(s_{t+m}, a_{t+m} ; \boldsymbol{w}\right) .$

把 $\widehat{y}_t$ 称作 $m$ 步 TD 目标。

$\widehat{q}_t=q\left(s_t, a_t ; \boldsymbol{w}\right)$ 和 $\widehat{y}_t$ 分别是价值网络在 $t$ 时刻和 $t + m$ 时刻做出的预测, 两者都是对 $Q_\pi\left(s_t, a_t\right)$ 的估计值。 $\widehat{q}_t$ 是纯粹的预测, 而 $\widehat{y}_t$ 则基于 $m$ 组实际观测, 因此 $\widehat{y}_t$ 比 $\widehat{q}_t$ 更可靠。我们鼓励 $\widehat{q}_t$ 接近 $\widehat{y}_t$ 。设损失函数为
$L(\boldsymbol{w}) \triangleq \frac{1}{2}\left[q\left(s_t, a_t ; \boldsymbol{w}\right)-\widehat{y_t}\right]^2 .$

做一步梯度下降更新价值网络参数 $\boldsymbol{w}$ :
$\boldsymbol{w} \leftarrow \boldsymbol{w}-\alpha \cdot\left(\widehat{q}_t-\widehat{y}_t\right) \cdot \nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}\right) .$
训练流程 : 设当前价值网络的参数为 $\boldsymbol{w}_{\text {now }}$ , 当前策略为 $\pi_{\text {now }}$ 执行以下步骤更新价值网络和策略。

用策略网络 $\pi_{\text {now }}$ 控制智能体与环境交互, 完成一个回合, 得到轨迹:

$s_1, a_1, r_1, s_2, a_2, r_2, \cdots, s_n, a_n, r_n .$

对于所有的 $\cdots, n-m$ , 计算

$\widehat{q}_t=q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) .$

对于所有的 $\cdots, n-m$ , 计算多步 TD 目标和 TD 误差:

$\widehat{y}_t=\sum_{i=0}^{m-1} \gamma^i r_{t+i}+\gamma^m \widehat{q}_{t+m}, \quad \delta_t=\widehat{q}_t-\widehat{y}_t .$

对于所有的 $\cdots, n-m$ , 对价值网络 $q$ 做反向传播, 计算 $q$ 关于 $\boldsymbol{w}$ 的梯度:

$\nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) .$

更新价值网络参数:

$\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \sum_{t=1}^{n-m} \delta_t \cdot \nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) .$

用某种算法更新策略函数 $\pi$ 。该算法与 SARSA 算法无关。

总是摸鱼的猫

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习（四）SARSA

假设状态空间S和动作空间A都是有限集, 即集合中元素数量有限。比如,S中一共有 3 种状态,A中一共有 4 种动作。那么动作价值函数Qπsa可以表示为一个3×4的表格。该表格与一个策略函数πa∣s相关联;如果π发生变化,表格Qπ也会发生变化。我们用表格q近似Qπ。首先初始化q, 可以让它是全零的表格。然后用表格形式的 SARSA 算法更新q,每次更新表格的一个元素。最终q收敛到Qπ。
复制链接

扫一扫

专栏目录