多智能体强化学习博弈系列（3）- 模糊actor-critic learning

最新推荐文章于 2023-07-15 10:35:10 发布

Edward Tivrusky IV

最新推荐文章于 2023-07-15 10:35:10 发布

阅读量1.5k

点赞数

分类专栏：算法文章标签：强化学习 RL fuzzy 博弈 Actor-Critic

本文链接：https://blog.csdn.net/yuuyuhaksho/article/details/87810707

版权

Q-learning和policy-gradient是两种常见的强化学习方法，两者的区别主要在如何选择下一步行为。Q-learning的目标是为每一种状态s找到唯一的最优行为a，使状态-行为对Q(s,a)的值最大化。而policy-gradient的目标是找到状态到所有行为的映射，使expected reward最大化。所以policy-gradient更适用于连续的行为空间——尤其是行为空间很大且边界未知的情况下，适用Q-learning可能造成运算量过大。另外如果最佳策略本身存在随机性（比如不存在dominant strategy的博弈），TD-learning类算法都不会考虑带有概率分布的参数。在解决相对简单的问题时，这两种方法的结果应该相差不大。

上一章节介绍了Q-learning的实现方法。经典actor-critic是一种policy-gradient算法，这一章节介绍actor-critic的实现。参考这里。

模糊 Actor-Critic Learning

在这里插入图片描述
来源

在actor-critic系统中，学习分为两步：

由actor选择行为
由critic评价预计后果是否与实际后果相符，并相应更新参数

在这个例子中，Actor和critic分别由一个模糊系统表示（另外一种常见方式是用神经网络）。在critic输出结果 $\hat{V}_t$ 后，基于环境反馈的强化信号(reward) $r_{t+1}$ 被用来更新actor和critic的参数。

Actor：输出行为选择。

计算出的行为值： $u_t = \sum_{l=1}^M \Phi^l w_t^l$ ，

在实际应用中为了鼓励发现行为空间，在 $u_t$ 的计算值以上还会增加一个小的白噪声 $\nu(0,\sigma)$ 。

而对actor的参数（i.e.对应每个rule $l$ 的行为 $w$ ），更新方法是： $w_{t+1}^l = w_{t}^l + \beta \text{sign } \big\{ \Delta \big(\cfrac{u'_t-u_t}{\sigma} \big) \big\} \cfrac{\partial u}{\partial w^l}$ 。

其中TD error

最低0.47元/天解锁文章

Edward Tivrusky IV

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
多智能体强化学习博弈系列（3）- 模糊actor-critic learning

Q-learning和policy-gradient是两种常见的强化学习方法，两者的区别主要在如何选择下一步行为。Q-learning的目标是为每一种状态s找到唯一的最优行为a，使状态-行为对Q(s,a)的值最大化。而policy-gradient的目标是找到状态到所有行为的映射，使expected reward最大化。所以policy-gradient更适用于连续的行为空间——尤其是行为空间很大...
复制链接

扫一扫