多智能体强化学习博弈系列（1）- 差分博弈和模糊系统

最新推荐文章于 2024-06-21 23:47:13 发布

Edward Tivrusky IV

最新推荐文章于 2024-06-21 23:47:13 发布

阅读量4.4k

点赞数 3

分类专栏：算法文章标签：博弈智能体 Fuzzy 强化学习 RL

本文链接：https://blog.csdn.net/yuuyuhaksho/article/details/87702177

版权

几点说明：

这个系列重点关注多智能体和强化学习在差分博弈中的应用，文章中有尝试复现的主要是双人/多人混合策略多阶段随机差分零和游戏的模拟。关于智能体、关于强化学习、关于博弈论基础的介绍，在这个系列基本不涉及。
- 强化学习简简简介见我之前的文章。
- 多智能体简简简介见我之前的文章。
- 有关博弈论基础的内容，e.g. 双人/多人游戏、零和/变和游戏、单一/混合策略、单一/多阶段博弈等概念，本文不涉及，有兴趣的童鞋可以参考这里。
- 这个系列也不涉及各种均衡的求解。
希望更多关注神经网络类实现的童鞋可以不必再往下读了：本系列不涉及DQN或其他类型的由神经网络实现的RL系统。

在真实世界中经常遇到环境、状态、行为都处于连续空间的情况。这时一般选择用差分方程来表达连续空间。这类博弈成为差分博弈，在这种博弈中智能体的目标是学习如何适应和学习连续可变的环境和能力。

模糊系统通常使用离散空间（比如文字描述）作为标签表示状态或行为。方法是通过构造membership function。

定义Universe of discourse $X$ 为一组元素x的集合，所有集合中的元素具有相同的特征标签。

定义membership function (MF) $\mu_A(x)$ 为映射集合元素到0-1的空间的方程。如果 $\mu_A(x)$ 取值仅为0或1, 这个模糊集合称为crisp或classical集合：

$\{(x,\mu_A(x))|x \in X \}$

membership function的交集intersection运算：

$\mu_{A \cap B}(x) = T(\mu_A(x), \mu_B(x)) = \mu_A(x) * \mu_B(x)$

其中 $T$ 是泛化的t-norm运算符，代表比如如下运算:

并集union运算：

$\mu_{A \cup B}(x) = S(\mu_A(x), \mu_B(x)) = \mu_A(x) \dot{+} \mu_B(x)$

其中 $S$ 是泛化的s-norm运算符，代表比如如下运算：

关注