强化学习基础知识——Policy Gradient相关问题、REINFORCE以及优势函数

最新推荐文章于 2024-05-16 22:32:24 发布

XaiverZ

最新推荐文章于 2024-05-16 22:32:24 发布

阅读量671

点赞数 19

分类专栏：强化学习基础知识文章标签：机器学习人工智能算法强化学习 Policy Gradient REINFORCE 优势函数

本文链接：https://blog.csdn.net/windgrin_/article/details/137685594

版权

强化学习基础知识专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Policy Gradient（∈Policy-Based）

基于概率

适用于Action-Space连续空间或离散空间

On-Policy

Monte-Carlo Update

Question：Policy Gradient和Value-based的区别？

Value-based方法通过神经网络输出某state的所有行为的Q值，然后再通过Q值选行为；而Policy Gradient直接通过神经网络输出行为的概率。

Value-based与Policy Gradient的本质区别其实可以从它们的名字上看出来。Value-based是基于“值”的方法，也就是直接基于Reward，而Reward直接来自于环境，与模型无关，不可导，无法利用梯度下降去更新模型参数，所以只能利用一些基于值的数学上的优化方法；而Policy Gradient引入了梯度，使得模型可以用梯度下降去更新，虽然在Policy Gradient中也用到了Reward，但在这里Reward起到的不是梯度的含义，而是一种“Scale”的含义，引导梯度的方向与大小，真正的梯度来自于Policy，也就是模型的输出

Question：Policy Gradient神经网络预测输出动作概率，损失函数如何计算？

DQN那种方式的损失函数还有办法定义与计算，即 $Q_{Target} - Q_{Predict}$ 。而Policy Gradient其实并没有真正意义上的“误差（Loss）”概念，因为环境样本并没有标签。Policy Gradient是通过Reward进行反向传播更新参数的，简单来说就是根据当前选择的action带来的Reward的大小作为“损失”来进行反向传播

Question：Policy Gradient如何输出Action-Space连续的动作？

Answer：输出加分布，如正态分布等

Policy Gradient通式
$\bm{ g=\mathbb{E}\left[\sum_{t=0}^{\infty} \Psi_{t} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right] }$
或
$\bm{ \nabla_{\theta} J\left(\pi_{\theta}\right)=\underset{\tau \sim \pi_{\theta}}{\mathrm{E}}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) R(\tau)\right] }$
其中， $\Psi_{t}$ 或 $R(\tau)$ 可以为多种函数，例如：Advantage Function、Value Function等
- $\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)$ 是状态 $s_t$ 情况下取到行为 $a_t$ 的梯度方向，如果 $θ$ 沿着该方向更新，则相当于提升了行为 $a_t$ 的概率，反之亦然。
  - 对于任意函数，沿着函数上某一点的梯度方向走（梯度上升）函数值一定会在某个邻域内增大；反之，逆着梯度方向走（梯度下降）函数值一定会在某个邻域内减小
- 而 $\Psi_{t}$ 或 $R(\tau)$ 决定了参数 $θ$ 更新的方向与程度

REINFORCE（VPG）

Paper : Benchmarking Deep Reinforcement Learning for Continuous Control

REINFORCE（Vanilla Policy Gradient）

核心公式：

$\bm{ \nabla_{\theta} J\left(\pi_{\theta}\right)=\underset{\tau \sim \pi_{\theta}}{\mathrm{E}}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) A^{\pi_{\theta}}\left(s_{t}, a_{t}\right)\right] }$

$\bm{ \theta_{k+1}=\theta_{k}+\alpha \nabla_{\theta} J\left(\pi_{\theta_{k}}\right) }$

参数更新公式：
$\bm{ \theta \leftarrow \theta+\alpha \nabla_{\theta} \log \pi_{\theta}\left(s_{t}, a_{t}\right) v_{t} }$
其中 $α$ 为学习率， $\nabla_{\theta}$ 为梯度求导， $\pi_{\theta}\left(s_{t}, a_{t}\right)$ 表示Policy，在这里表示神经网络输出的行为概率，对概率取log是为了训练更稳定， $v_t$ 表示 $f (re w a r d)$
- 从更新公式就能看出，“损失函数”公式应为：
  $\log \pi_{\theta}\left(s_{t}, a_{t}\right) v_{t}$
注意：VPG输出的是选择各个行为的概率，并不是一定选择概率最高的那个行为，而是根据各行为的概率选择行为
- 例如：输出概率[0.6, 0.1, 0.3]，选择行为时，会根据各行为的概率随机选择，即有60%的概率选择行为-1，10%的概率选择行为-2，30%的概率选择行为-3（有点ε-greedy的究极进化版的意思）

优势函数（Advantage Function）

知乎

CSDN

Advantage Function

标准定义：
$\bm{ A^{\pi}(s, a)=Q^{\pi}(s, a)-V^{\pi}(s) }$
其中， $V^{\pi}(s)$ 为状态值函数（State Value Function）， $Q^{\pi}(s, a)$ 为状态-动作值函数（State-Action Value Function，即Q函数）
状态值函数（State Value Function）
- 代表某一State的综合重要程度
- 该State下所有Action的Q值平均值
优势函数（Advantage Function）
- 代表某一特定state下，各个action的合理性
- （同一State的）优势函数均值为0（人为限制）
- 优势函数直接给出了某一动作A的性能与当前State下所有可能动作的性能的均值的差值
  - 若该差值（优势）大于0，说明动作A优于平均，是个合理的选择
  - 若该差值（优势）小于0，说明动作A次于平均，不是个合理的选择