Proximal Policy Optimization (PPO) 原理

最新推荐文章于 2024-08-08 21:12:55 发布

zzzzzzzzzzhy

最新推荐文章于 2024-08-08 21:12:55 发布

阅读量76

点赞数

文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/zzzzzzzzzzhy/article/details/130700722

版权

TRPO和PPO是强化学习中的策略优化算法。TRPO通过约束优化问题确保策略更新的稳定性，而PPO进一步简化为无约束问题，通过CLIP操作隐式保持策略的近似不变性。PPO的目标函数设计能避免大的策略跳跃，保证学习过程的效率和收敛性。

摘要由CSDN通过智能技术生成

1. Motivation

在TRPO中，我们通过解如下优化问题对策略参数进行更新:
$\text{maximize}_{\theta} \mathbb{E}_t[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}A_t],\\ s.t. \mathbb{E}[\bar D_{KL}[\pi_{\theta_{old}}(\cdot,s_t),\pi_{\theta}(\cdot,s_t)]] \le \delta. \tag{1}$ PPO指出，实际在TRPO的理论分析中，针对的是无约束优化问题:
$\text{maximize}_{\theta} \mathbb{E}_t[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}A_t - \beta D_{KL}^{max}[\pi_{\theta_{old}}(\cdot,s_t),\pi_{\theta}(\cdot,s_t)].\tag{2}$ TRPO中发现，难以选择合适的 $\beta$ 来解决(2)中的问题。并且，由于TRPO将 $D_{KL}^{max}$ (最大值)替换为了 $\bar D_{KL}$ (平均值)，导致实际上(2)是一个比(1)更低的下界估计。
因此，PPO从以上角度出发，首先将TRPO中的约束优化问题变为了无约束优化问题，并且通过修改目标函数，使得约束隐式地保留。

2. Algorithm

若不考虑约束，则TRPO的优化目标可以写为：
$\text{maximize}_{\theta} \mathbb{E}_t[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}A_t] = \mathbb{E}_t[r_t(\theta)A_t],\tag{3}$ 其中 $r(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} \in [0, +\infty]$ ，且 $r(\theta_{old})=1$ 。为了使 $r(\theta)$ 不偏离1太远（类似于TRPO中的KL散度约束），PPO设计了以下的目标函数:
$L^{CLIP}(\theta) = \mathbb{E}_t[\min(r_t(\theta)A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)A_t)]. \tag{4}$ 其作用是当 $A > 0$ 时，将 $r(\theta)$ 在 $1+\epsilon$ 处截断，当 $A < 0$ 时，将 $r(\theta)$ 在 $1-\epsilon$ 处截断（见PPO论文Figure1）。注意到，目标函数(4)是(3)的下界。其余部分与一般的AC算法无异，包括更新Critic网络，估计 $A_t$ 等，可参考PPO论文5. Algorithm部分，在此不再赘述。

zzzzzzzzzzhy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Proximal Policy Optimization (PPO) 原理

在TRPO中，我们通过解如下优化问题对策略参数进行更新:maximizeθEt[πθ(at∣st)πθold(at∣st)At],s.t.E[DˉKL[πθold(⋅,st),πθ(⋅,st)]]≤δ.(1)\text{maximize}_{\theta} \mathbb{E}_t[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}A_t],\\s.t. \mathbb{E}[\bar D_{KL}[\pi_{\theta_{old}}(
复制链接

扫一扫