多智能体强化学习博弈系列（2）- 模糊Q-Learning

最新推荐文章于 2025-03-16 13:14:13 发布

Edward Tivrusky IV

最新推荐文章于 2025-03-16 13:14:13 发布

阅读量5.3k

点赞数 3

分类专栏：算法文章标签：强化学习智能体 fuzzy 博弈 RL

本文链接：https://blog.csdn.net/yuuyuhaksho/article/details/87702919

版权

本文介绍了将模糊系统与Q-learning结合应用于多智能体领土保卫游戏的强化学习策略。智能体的输入和输出通过模糊化和去模糊化处理。模糊规则采用Product inference engine和singleton membership function，防卫者通过Q-learning不断优化截击位置。在模拟过程中，采用reward shaping方法提升智能体性能，结果显示随着学习进行，防卫者获胜率逐渐提高。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于模糊系统见上一篇。

游戏描述：

以多人领土保卫游戏（guarding territory）为例：进攻者采取最佳策略（提前计算出的纳什均衡点），防卫者通过强化学习，不断优化截击位置。目标是成功截击进攻者，且截击位置距离领土范围最远。

这一章节采用的RL算法是Q-learning。防卫者作为智能体，输入和输出分别经过模糊化和去模糊化处理。

模糊系统

$n$ 个输入变量的连续输入空间被离散化为 $M$ 个模糊规则，输出变量为单一值，取值空间为连续范围。规则 $\cdots, M)$ 可以表示为：

$R^l : \text{IF } x_1 \text{ is } F_1^l, \cdots, \text{ and } x_n \text{ is } F_n^l \text{ THEN } u = c^l$

其中 $\vec{x} = (x_1, \cdots, x_n)$ 是输入变量， $F_i^l$ 是对应各个输入变量和模糊规则的模糊集合， $u^l$ 是每个规则的推理输出， $c^l$ 是每个集合的中心点（离散的行为）。

使用_product inference engine_, singleton membership function，加权平均去模糊化，最终的系统输出可以表示为：

$U(\vec{x}) = \cfrac{\sum_{l=1}^M \Big( \left( \Pi_{i=1}^n \mu^{F_i^l}(x_i) \right) \cdot c^l \Big)}{\sum_{l=1}^M \left( \Pi_{i=1}^n \mu^{F_i^l}(x_i) \right)} = \sum_{l=1}^M \Phi^l c^l$