关于模糊系统见上一篇。
游戏描述:
以多人领土保卫游戏(guarding territory)为例:进攻者采取最佳策略(提前计算出的纳什均衡点),防卫者通过强化学习,不断优化截击位置。目标是成功截击进攻者,且截击位置距离领土范围最远。
这一章节采用的RL算法是Q-learning。防卫者作为智能体,输入和输出分别经过模糊化和去模糊化处理。
模糊系统
n n n个输入变量的连续输入空间被离散化为 M M M个模糊规则,输出变量为单一值,取值空间为连续范围。 规则 l ( l = 1 , ⋯   , M ) l (l = 1, \cdots, M) l(l=1,⋯,M)可以表示为:
R l : IF x 1 is F 1 l , ⋯   , and x n is F n l THEN u = c l R^l : \text{IF } x_1 \text{ is } F_1^l, \cdots, \text{ and } x_n \text{ is } F_n^l \text{ THEN } u = c^l Rl:IF x1 is F1l,⋯, and xn is Fnl THEN u=cl
其中 x ⃗ = ( x 1 , ⋯   , x n ) \vec{x} = (x_1, \cdots, x_n) x=(x1,⋯,xn)是输入变量, F i l F_i^l Fil是对应各个输入变量和模糊规则的模糊集合, u l u^l ul是每个规则的推理输出, c l c^l cl是每个集合的中心点(离散的行为)。
使用_product inference engine_, singleton membership function,加权平均去模糊化,最终的系统输出可以表示为:
U ( x ⃗ ) = ∑ l = 1 M ( ( Π i = 1 n μ F i l ( x i ) ) ⋅ c l ) ∑ l = 1 M ( Π i = 1 n μ F i l ( x i ) ) = ∑ l = 1 M Φ l c l U(\vec{x}) = \cfrac{\sum_{l=1}^M \Big( \left( \Pi_{i=1}^n \mu^{F_i^l}(x_i) \right) \cdot c^l \Big)}{\sum_{l=1}^M \left( \Pi_{i=1}^n \mu^{F_i^l}(x_i) \right)} = \sum_{l=1}^M \Phi^l c^l U(x)=∑l=1M(Πi=1nμFil(xi))∑l=1M((Πi=1nμFil(xi))⋅c