几点说明:
- 这个系列重点关注多智能体和强化学习在差分博弈中的应用,文章中有尝试复现的主要是双人/多人混合策略多阶段随机差分零和游戏的模拟。关于智能体、关于强化学习、关于博弈论基础的介绍,在这个系列基本不涉及。
- 希望更多关注神经网络类实现的童鞋可以不必再往下读了:本系列不涉及DQN或其他类型的由神经网络实现的RL系统。
差分博弈 differential games
在真实世界中经常遇到环境、状态、行为都处于连续空间的情况。这时一般选择用差分方程来表达连续空间。这类博弈成为差分博弈,在这种博弈中智能体的目标是学习如何适应和学习连续可变的环境和能力。
模糊系统 fuzzy systems
模糊系统通常使用离散空间(比如文字描述)作为标签表示状态或行为。方法是通过构造membership function。
定义Universe of discourse X X X 为一组元素x的集合,所有集合中的元素具有相同的特征标签。
定义membership function (MF) μ A ( x ) \mu_A(x) μA(x) 为映射集合元素到0-1的空间的方程。如果 μ A ( x ) \mu_A(x) μA(x)取值仅为0或1, 这个模糊集合称为crisp或classical集合:
A = { ( x , μ A ( x ) ) ∣ x ∈ X } A = \{(x,\mu_A(x))|x \in X \} A={ (x,μA(x))∣x∈X}
membership function的交集intersection运算:
μ A ∩ B ( x ) = T ( μ A ( x ) , μ B ( x ) ) = μ A ( x ) ∗ μ B ( x ) \mu_{A \cap B}(x) = T(\mu_A(x), \mu_B(x)) = \mu_A(x) * \mu_B(x) μA∩B(x)=T(μA(x),μB(x))=μA(x)∗μB(x)
其中 T T T是泛化的t-norm运算符,代表比如如下运算:
- 求最小: T m i n ( a , b ) = m i n ( a , b ) T_{min}(a,b) = min(a,b) Tmin(a,b)=min(a,b)
- 代数乘积: T a p ( a , b ) = a b T_{ap}(a,b) = ab Tap(a,b)=ab
并集union运算:
μ A ∪ B ( x ) = S ( μ A ( x ) , μ B ( x ) ) = μ A ( x ) + ˙ μ B ( x ) \mu_{A \cup B}(x) = S(\mu_A(x), \mu_B(x)) = \mu_A(x) \dot{+} \mu_B(x) μA∪B(x)=S(μA(x),μB(x))=μA(x)+˙μB(x)
其中 S S S是泛化的s-norm运算符,代表比如如下运算:
- 求最大: S m a x ( a , b ) = m a x ( a , b ) S_{max}(a,b) = max(a,b) Smax(a,b)=max(a,b)
- 代数求和: S a p ( a