强化学习（二）-Actor-Critic

最新推荐文章于 2024-03-10 16:08:13 发布

ZJKL_Silence

最新推荐文章于 2024-03-10 16:08:13 发布

阅读量536

点赞数

分类专栏：强化学习推荐算法文章标签： Actor-Critic

本文链接：https://blog.csdn.net/zjkl_silence/article/details/86184525

版权

推荐算法同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

强化学习

1 篇文章 0 订阅

订阅专栏

什么是 Actor-Critic (强化学习) - 知乎 https://zhuanlan.zhihu.com/p/25831658
强化学习中的一种结合体 Actor Critic (演员评判家), 它合并了以值为基础 (比如 Q learning) 和以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法。
Actor 的前生是 Policy Gradients , 这能让它毫不费力地在连续动作中选取合适的动作；Critic 的前生是 Q-learning 或者其他的以值为基础的学习法，能进行单步更新, 而传统的 Policy Gradients 则是回合更新, 这降低了学习效率.
那我们就拿一个 Critic 去学习这些奖惩机制, 学习完了以后. 由 Actor 来指手画脚, 由 Critic 来告诉 Actor 你的那些指手画脚哪些指得好, 哪些指得差, Critic 通过学习环境和奖励之间的关系, 能看到现在所处状态的潜在奖励, 所以用它来指点 Actor 便能使 Actor 每一步都在更新, 如果使用单纯的 Policy Gradients, Actor 只能等到回合结束才能开始更新.
缺点： Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西. Google DeepMind 为了解决这个问题, 修改了 Actor Critic 的算法。

改进版 Deep Deterministic Policy Gradient

成功的解决的在连续动作预测上的学不到东西问题
完整RL:https://zhuanlan.zhihu.com/p/36494307、

ZJKL_Silence

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习（二）-Actor-Critic

什么是 Actor-Critic (强化学习) - 知乎 https://zhuanlan.zhihu.com/p/25831658强化学习中的一种结合体 Actor Critic (演员评判家), 它合并了以值为基础 (比如 Q learning) 和以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法。Actor 的前生是 Policy Gradients ,...
复制链接

扫一扫