深度学习(20): Policy gradient & Proximal policy gradient
最新推荐文章于 2022-06-21 20:35:14 发布
本文介绍了强化学习中Policy Gradient的原理,包括基本组件、策略演员、最大化期望奖励的方法,以及如何通过添加基线和合理分配信用来改进策略。文章进一步探讨了从在线策略到离线策略的转换,分析了重要性采样的问题,并提出了PPO(Proximal Policy Optimization)算法,解释了其约束更新策略以及PPO2算法中对策略梯度的限制,以保持行为的稳定性。
摘要由CSDN通过智能技术生成