策略梯度强化学习_薄荷-塘的博客-CSDN博客

策略梯度强化学习

关注

关注数：文章数：1 文章阅读量：7413 文章收藏量：55

作者: 薄荷-塘

致力于复杂系统的相关研究，主要研究方向包括：（1）复杂系统动态建模：基于博弈、基于规则、基于AI；（2）复杂系统的评估：基于模型、基于数据、模型与数据驱动；（3）复杂系统优化：基于智能优化算法，基于强化学习算法。目前正在研究基于深度强化学习的复杂系统对抗策略研究，针对面向星际争霸的AlphaStar，面向Dota2、Atari等游戏开发的算法，进行相关的深度强化学习算法应用、改进和设计研究。

展开

一图看懂Policy Gradients深度强化学习算法

有想了解DQN算法实现流程图解的童鞋，请移步这里Policy Gradients 深度强化学习算法实现流程详解前言一、PG深度强化学习算法的产生动机？二、算法原理三.算法实现流程总结前言基于Policy Gradients（策略梯度法，后文简称PG）的深度强化学习方法，思想上与基于Q-learning的系列算法有本质的不同，下面本博客争取用简洁的语言，清晰的图表对PG深度强化学习算法进行阐述，帮助初学者更好地理解算法。一、PG深度强化学习算法的产生动机？想要了解PG深度强化学习算法为什么会产生

原创 2020-08-23 15:38:17 · 7413 阅读 · 3 评论

策略梯度强化学习

作者: 薄荷-塘

一图看懂Policy Gradients深度强化学习算法