多智能体强化学习博弈系列(1)- 差分博弈和模糊系统

几点说明:

  1. 这个系列重点关注多智能体和强化学习在差分博弈中的应用,文章中有尝试复现的主要是双人/多人混合策略多阶段随机差分零和游戏的模拟。关于智能体、关于强化学习、关于博弈论基础的介绍,在这个系列基本不涉及。
    • 强化学习简简简介见我之前的文章
    • 多智能体简简简介见我之前的文章
    • 有关博弈论基础的内容,e.g. 双人/多人游戏、零和/变和游戏、单一/混合策略、单一/多阶段博弈等概念,本文不涉及,有兴趣的童鞋可以参考这里
    • 这个系列也不涉及各种均衡的求解。
  2. 希望更多关注神经网络类实现的童鞋可以不必再往下读了:本系列不涉及DQN或其他类型的由神经网络实现的RL系统。
差分博弈 differential games

在真实世界中经常遇到环境、状态、行为都处于连续空间的情况。这时一般选择用差分方程来表达连续空间。这类博弈成为差分博弈,在这种博弈中智能体的目标是学习如何适应和学习连续可变的环境和能力。

模糊系统 fuzzy systems

模糊系统通常使用离散空间(比如文字描述)作为标签表示状态或行为。方法是通过构造membership function。

定义Universe of discourse X X X 为一组元素x的集合,所有集合中的元素具有相同的特征标签。

定义membership function (MF) μ A ( x ) \mu_A(x) μA(x) 为映射集合元素到0-1的空间的方程。如果 μ A ( x ) \mu_A(x) μA(x)取值仅为0或1, 这个模糊集合称为crispclassical集合:

A = { ( x , μ A ( x ) ) ∣ x ∈ X } A = \{(x,\mu_A(x))|x \in X \} A={ (x,μA(x))xX}

membership function的交集intersection运算:

μ A ∩ B ( x ) = T ( μ A ( x ) , μ B ( x ) ) = μ A ( x ) ∗ μ B ( x ) \mu_{A \cap B}(x) = T(\mu_A(x), \mu_B(x)) = \mu_A(x) * \mu_B(x) μAB(x)=T(μA(x),μB(x))=μA(x)μB(x)

其中 T T T是泛化的t-norm运算符,代表比如如下运算:

  • 求最小: T m i n ( a , b ) = m i n ( a , b ) T_{min}(a,b) = min(a,b) Tmin(a,b)=min(a,b)
  • 代数乘积: T a p ( a , b ) = a b T_{ap}(a,b) = ab Tap(a,b)=ab

并集union运算:

μ A ∪ B ( x ) = S ( μ A ( x ) , μ B ( x ) ) = μ A ( x ) + ˙ μ B ( x ) \mu_{A \cup B}(x) = S(\mu_A(x), \mu_B(x)) = \mu_A(x) \dot{+} \mu_B(x) μAB(x)=S(μA(x),μB(x))=μA(x)+˙μB(x)

其中 S S S是泛化的s-norm运算符,代表比如如下运算:

  • 求最大: S m a x ( a , b ) = m a x ( a , b ) S_{max}(a,b) = max(a,b) Smax(a,b)=max(a,b)
  • 代数求和: S a p ( a
  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值