强化学习-08--PPO

weixin_45650561

已于 2023-02-18 16:15:48 修改

阅读量1.3k

点赞数 1

分类专栏：强化学习文章标签：机器学习深度学习人工智能

于 2020-11-11 21:36:02 首次发布

本文链接：https://blog.csdn.net/weixin_45650561/article/details/109631962

版权

强化学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

PPO

一、ppo伪代码
二、ppo算法整个过程的理解
三、on-policy与off-policy
四、细节
五、ppo代码
六、与A3C区别
参考资料

一、ppo伪代码

在这里插入图片描述

二、ppo算法整个过程的理解

适用于连续动作空间的一种算法!

(1)首先，存储(s、a、r)，计算折扣奖励以及优势函数

buffer_s.append(s) buffer_a.append(a) buffer_r.append®,即可将强化学习的经验存储起来，当存储量达到一个batch后，计算buffer里面的折扣奖励及优势函数，然后将buffer_s、buffer_a、buffer_r清零置空。下一步将更新actor网络和critic网络。

折扣奖励公式为:

$R_{t}=\sum_{t^{'}>t}^{t^{'}=n-1}{\gamma^{t^{'}-t}r_{t^{'}}}+\gamma^{n-t}V_{\phi}(s_{n})$
$=r_{t}+\gamma*r_{t+1}+\gamma^{2}*r_{t+2}+...+\gamma^{n-t-1}*r_{n-1}+\gamma^{n-t}*V_{\phi}(s_{n})$
其中 $V_{\phi}(s_{n})$ 通过critic网络得到，输入状态 sn 得到值函数 $V_{\phi}(s_{t})$ 。

优势函数为:
$A_{t}=R_{t}-V_{\phi}(s_{t})$
其中 $V_{\phi}(s_{t})$ 通过critic网络得到，输入状态 st 得到值函数 $V_{\phi}(s_{t})$ 。

(2)更新actor网络
actor网络有一个新actor网路和旧actor网络，其中新actor网络在更新的时候是一直都在更新，而旧actor网络是在新actor网络更新一定次数后，由新actor网络的参数赋值。

新actor网络更新:(有两种更新方式)

1)一种为: $aloss=-\sum_{t-1}^{T}{\frac{\pi_{new}(a_{t}|s_{t})}{\pi_{old}(a_{t}|s_{t})}A_{t}}-\lambda*KL(\pi_{old}|\pi_{new})$
$KL(\pi_{old}|\pi_{new})>4KL_{tearget}$ 时，break,退出更新循环，进入下一次迭代episode。

2)第二种为: $aloss=-\sum_{a}^{b}{min( \frac{\pi_{new}(a_{t}|s_{t})}{\pi_{old}(a_{t}|s_{t})}A_{t},clip(\frac{\pi_{new}(a_{t}|s_{t})}{\pi_{old}(a_{t}|s_{t})} ,1-\epsilon,1+\epsilon)A_{t} })$
根据得到的损失函数，进行梯度更新(进行训练，使得损失函数越来越小)。

(3)更新critic网络
$closs=\sum_{t=1}^{T}[R_{t}-V_{\phi}(s_{t})]^2$
根据损失函数，进行梯度更新

(4)要根据不同的KL散度的范围对参数 λ 进行更改:
$KL(\pi_{old}|\pi_{new})>\beta_{high}KL_{target}时，\lambda=\alpha*\lambda(\alpha>1)$
$KL(\pi_{old}|\pi_{new})<\beta_{low}KL_{target}时，\lambda=\lambda/\alpha(\alpha>1)$