深度强化学习(八)(策略梯度的近似)

总是摸鱼的猫

于 2024-03-23 11:43:55 发布

阅读量1k

点赞数 11

分类专栏：深度强化学习· 文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/weixin_54255111/article/details/136963919

版权

深度强化学习· 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

微信图片_20240323113941.jpg

深度强化学习(八)(策略梯度的近似)

一.策略梯度的近似

在上一节中我们推出了在马尔可夫链稳态的假设下，策略梯度的表达式
$\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})=\mathbb{E}_S\left[\mathbb{E}_{A \sim \pi(\cdot \mid S ; \boldsymbol{\theta})}\left[Q_\pi(S, A) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(A \mid S ; \boldsymbol{\theta})\right]\right]$
解析求出这个期望复杂度太大，因此我们采用蒙特卡洛方法去近似策略梯度。每次从环境中观测到一个状态 $s$ ，它相当于随机变量 $S$ 的观测值。然后再根据当前的策略网络（策略网络的参数必须是最新的）随机抽样得出一个动作：
$a\sim\pi(\cdot\mid s)$
计算随机梯度：
$\boldsymbol{g}(s, a ; \boldsymbol{\theta}) \triangleq Q_\pi(s, a) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$
很显然, $\boldsymbol{g}(s, a ; \boldsymbol{\theta})$ 是策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 的无偏估计（我们仅关心梯度的方向）:
$\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})=\mathbb{E}_S\left[\mathbb{E}_{A \sim \pi(\cdot| S ; \boldsymbol{\theta})}[\boldsymbol{g}(S, A ; \boldsymbol{\theta})]\right]$
然而，对于 $\boldsymbol g(s,a;\boldsymbol \theta)=Q_{\pi}(s,a)\cdot \nabla_{\boldsymbol \theta}\ln \pi(a\mid s;\boldsymbol \theta)$ ，我们仍不知道 $Q_{\pi}(s,a)$

二. REINFORCE 的推导

根据定义, $\boldsymbol{g}(s, a ; \boldsymbol{\theta}) \triangleq Q_\pi(s, a) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta})$ 。上一节中把策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 表示成期望的连加:
$\begin{aligned} \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})= & \mathbb{E}_{S_1, A_1}\left[\boldsymbol{g}\left(S_1, A_1 ; \boldsymbol{\theta}\right)\right] \\ & +\gamma \cdot \mathbb{E}_{S_1, A_1, S_2, A_2}\left[\boldsymbol{g}\left(S_2, A_2 ; \boldsymbol{\theta}\right)\right] \\ & +\gamma^2 \cdot \mathbb{E}_{S_1, A_1, S_2, A_2, S_3, A_3}\left[\boldsymbol{g}\left(S_3, A_3 ; \boldsymbol{\theta}\right)\right] \\ & +\cdots \\ & +\gamma^{n-1} \cdot \mathbb{E}_{S_1, A_1, S_2, A_2, S_3, A_3, \cdots, S_n, A_n}\left[\boldsymbol{g}\left(S_n, A_n ; \boldsymbol{\theta}\right)\right] . \end{aligned} \tag{2.1}$

我可以对期望做蒙特卡洛近似。首先观测到第一个状态 $S_1=s_1$ 。然后用最新的策略网络 $\pi\left(a \mid s ; \boldsymbol{\theta}_{\text {now }}\right)$ 控制智能体与环境交互, 观测到到轨迹
$s_1, a_1, r_1, s_2, a_2, r_2, \cdots, s_n, a_n, r_n .$

对公式 (2.1) 中的期望做蒙特卡洛近似, 得到:
$\nabla_{\boldsymbol{\theta}} J\left(\boldsymbol{\theta}_{\text {now }}\right) \approx \boldsymbol{g}\left(s_1, a_1 ; \boldsymbol{\theta}_{\text {now }}\right)+\gamma \cdot \boldsymbol{g}\left(s_2, a_2 ; \boldsymbol{\theta}_{\text {now }}\right)+\cdots+\gamma^{n-1} \cdot \boldsymbol{g}\left(s_n, a_n ; \boldsymbol{\theta}_{\text {now }}\right) .$

进一步把 $\boldsymbol{g}\left(s_t, a_t ; \boldsymbol{\theta}_{\text {now }}\right) \triangleq Q_\pi\left(s_t, a_t\right) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right)$ 中的 $Q_\pi\left(s_t, a_t\right)$ 替换成 $u_t$ , 那么 $\boldsymbol{g}\left(s_t, a_t ; \boldsymbol{\theta}_{\text {now }}\right)$ 就被近似成为
$\boldsymbol{g}\left(s_t, a_t ; \boldsymbol{\theta}_{\text {now }}\right) \approx u_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right) .$
经过上述两次近似, 策略梯度被近似成为下面的随机梯度
$\nabla_{\boldsymbol{\theta}} J\left(\boldsymbol{\theta}_{\text {now }}\right) \approx \sum_{t=1}^n \gamma^{t-1} \cdot u_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right) .$

这样就得到了 REINFORCE 算法的随机梯度上升公式:
$\boldsymbol{\theta}_{\text {new }} \leftarrow \boldsymbol{\theta}_{\text {now }}+\beta \cdot \sum_{t=1}^n \gamma^{t-1} \cdot u_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right)$

三.Actor-Critic

策略梯度定理推导出梯度更新的方向
$\boldsymbol{g}(s, a ; \boldsymbol{\theta}) \triangleq Q_\pi(s, a) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta})$
但是其中的动作价值函数 $Q_\pi$ 是未知的, 导致无法直接计算 $\boldsymbol{g}(s, a ; \boldsymbol{\theta})$ 。上一节的 REINFORCE 用实际观测的回报近似 $Q_\pi$ , 本节的 actor-critic 方法用神经网络近似 $Q_\pi$ 。

Actor-critic 方法用一个神经网络近似动作价值函数 $Q_π(s,a)$ ，这个神经网络叫做“价值网络”，记为 $q(s,a;\boldsymbol w)$ ，其中的 $\boldsymbol w$ 表示神经网络中可训练的参数。价值网络的输入是状态 $s$ ，输出是每个动作的价值。动作空间A中有多少种动作，那么价值网络的输出就是多少维的向量，向量每个元素对应一个动作。

Actor-critic 翻译成 “演员一评委”方法。策略网络 $\pi(a \mid s ; \boldsymbol{\theta})$ 相当于演员, 它基于状态 $s$ 做出动作 $a$ 。价值网络 $\boldsymbol{w})$ 相当于评委, 它给演员的表现打分, 评价在状态 $s$ 的情况下做出动作 $a$ 的好坏程度。

训练策略网络 (演员) : 策略网络 (演员) 想要改进自己的演技, 但是演员自己不知道什么样的表演才算更好, 所以需要价值网络（评委）的帮助。在演员做出动作 $a$ 之后,评委会打一个分数 $\widehat{q} \triangleq q(s, a ; \boldsymbol{w})$ , 并把分数反馈给演员, 帮助演员做出改进。演员利用当前状态 $s$ , 自己的动作 $a$ , 以及评委的打分 $\hat{q}$ , 计算近似策略梯度, 然后更新自己的参数 $\boldsymbol{\theta}$ (相当于改变自己的技术)。通过这种方式, 演员的表现越来越受评委的好评, 于是演员的获得的评分 $\widehat{q}$ 越来越高。

训练策略网络的基本想法是用策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 的近似来更新参数 $\boldsymbol{\theta}$ 。之前我们推导过策略梯度的无偏估计：
$\boldsymbol{g}(s, a ; \boldsymbol{\theta}) \triangleq Q_\pi(s, a) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$

价值网络 $\boldsymbol{w})$ 是对动作价值函数 $Q_\pi(s, a)$ 的近似, 所以把上面公式中的 $Q_\pi$ 替换成价值网络, 得到近似策略梯度:
$\widehat{\boldsymbol{g}}(s, a ; \boldsymbol{\theta}) \triangleq \underbrace{q(s, a ; \boldsymbol{w})}_{\text {评委的打分 }} \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$

最后做梯度上升更新策略网络的参数：
$\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta \cdot \widehat{\boldsymbol{g}}(s, a ; \boldsymbol{\theta})$
用上述方式更新参数之后，会让评委打出的分数越来越高,而评委评分的均值为
$\boldsymbol{\theta})=\mathbb{E}_{A \sim \pi(\cdot \mid s ; \boldsymbol{\theta})}[q(s, A ; \boldsymbol{w})]$
而梯度上升的方向
$\begin{aligned} \Bbb E_{A\sim \pi(\cdot \mid s; \boldsymbol{\theta})}[q(s, A ; \boldsymbol{w}) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(A \mid s ; \boldsymbol{\theta}) ]&=\sum_{A}q(s,a;\boldsymbol w)\cdot \nabla_{\boldsymbol \theta}\pi(a\mid s;\boldsymbol \theta)\\ &=\nabla_{\boldsymbol \theta}[\sum_{A}q(s,a;\boldsymbol w)\cdot \pi(a\mid s;\boldsymbol \theta)]\\ &=\nabla_{\boldsymbol \theta}\mathbb{E}_{A \sim \pi(\cdot \mid s ; \boldsymbol{\theta})}[q(s, A ; \boldsymbol{w})]\\ &=\nabla_{\boldsymbol \theta}v(s ; \boldsymbol{\theta}) \end{aligned}$
因此，用梯度上升更新 $\boldsymbol \theta$ ，会让 $v(s;\boldsymbol \theta)$ 变大，也就是让评委打分的均值更高。

换句话说，即使评委的水平与真实水平相差甚远，在训练的过程中评委的评分依旧会上升。通过以上分析，我们不难发现上述训练策略网络（演员）的方法不是真正让演员表现更好，只是让演员更迎合评委的喜好而已。因此，评委的水平也很重要，只有当评委的打分 $q$ 真正反映出动作价值 $Q_{\pi}$ ，演员的水平才能真正提高。我们使用 $S A R A S$ 算法对价值网络进行更新。

下面概括 actor-critic 训练流程。设当前策略网络参数是 $\boldsymbol{\theta}_{\text {now }}$ , 价值网络参数是 $\boldsymbol{w}_{\text {now }}$ 。执行下面的步骤, 将参数更新成 $\theta_{\text {new }}$ 和 $\boldsymbol{w}_{\text {new }}$ :

观测到当前状态 $s_t$ , 根据策略网络做决策: $a_t \sim \pi\left(\cdot \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right)$ , 并让智能体执行动作 $a_t$ 。
从环境中观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
根据策略网络做决策: $\tilde{a}_{t+1} \sim \pi\left(\cdot \mid s_{t+1} ; \boldsymbol{\theta}_{\text {now }}\right)$ , 但不让智能体执行动作 $\tilde{a}_{t+1}$ 。
让价值网络打分：
$\widehat{q}_t=q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) \quad \text { 和 } \quad \widehat{q}_{t+1}=q\left(s_{t+1}, \tilde{a}_{t+1} ; \boldsymbol{w}_{\text {now }}\right)$
计算 TD 目标和 TD 误差:
$\widehat{y}_t=r_t+\gamma \cdot \widehat{q}_{t+1} \quad \text { 和 } \quad \delta_t=\widehat{q}_t-\widehat{y}_t .$
更新价值网络：
$\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_t \cdot \nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) .$
更新策略网络：

$\boldsymbol{\theta}_{\text {new }} \leftarrow \boldsymbol{\theta}_{\text {now }}+\beta \cdot \widehat{q}_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right) .$