多智能体强化学习博弈系列(4)- 模糊Q(lambda)-learning

基于模糊输入的 Q ( λ ) Q(\lambda) Q(λ)-learning(QLFIS)是一个由控制器和模拟器两个部分组成的模糊系统,结构类似于actor-critic learning,但由于对于action的选取仍然基于max(Q),即唯一的最优行为,所以是Q-learning的一种。在模拟器中采用了eligibilty trace更新多个time steps中的reward,根据更新时间距离当前时间的距离,衰减参数为 λ \lambda λ,所以叫 Q ( λ ) Q(\lambda) Q(λ)-learning。

QLFIS 系统简介

在Carleton两位教授的原始论文Q(lambda)-learning fuzzy logic controller for a multi-robot system - S. Desouky and H. Schwartz中,采用的算法不仅对控制器和模拟器的输出参数做了学习,还包含了对输入参数(membership function的参数)做了学习。
alt_text
如图所示:FLC(fuzzy logic controller)是生成最终行为 u u u的控制器,system是环境,会对系统输入环境反馈。FIS(fuzzy inference system)是模拟器,输出value function Q ( s t , a ) Q(s_t,a) Q(st,a)

TD error δ t = r t + 1 + γ m a x u ′ Q ( s t + 1 , u ′ ) − Q ( s t , u t ) \delta_t = r_{t+1} + \gamma max_{u'} Q(s_{t+1},u') - Q(s_t,u_t) δt=rt+1+γmaxuQ(st+1,u)Q(st,ut)用来计算参数更新用的梯度。为简单期间,$max_{u’} Q(s_{t+1},u’) $的估算是靠计算q-table中的最大概率行为对应的Q值。

Q t + 1 ( s t , u t ) = Q t ( s t , u t ) + α δ t e t ( e q . 5.59 ) Q_{t+1}(s_t,u_t) = Q_t(s_t,u_t) + \alpha \delta_t e_t \quad (eq.5.59) Qt+1(st,ut)=Qt(st,ut)+αδtet(eq.5.59)

其中 e t = γ λ e t − 1 + ∂ Q t ( s t , a t ) ∂ ξ ( e q . 5.60 ) e_t = \gamma \lambda e_{t-1} + \cfrac{\partial Q_t(s_t,a_t)}{\partial \xi} \quad (eq.5.60) et=γλet1+ξQt(st,at)(eq.5.60)

ξ = [ K    c    σ ] T \xi = [K \; c \; \sigma]^T ξ=[Kcσ]T是被更新的参数,更新公式:

ξ F I S ( t + 1 ) = ξ F I S ( t ) + η δ t { γ λ e t − 1 + ∂ Q t ( s t , u t ) ∂ ξ F I S } ( e q . 5.61 ) \xi_{FIS}(t+1) = \xi_{FIS}(t) + \eta \delta_t \big\{ \gamma \lambda e_{t-1} + \cfrac{\partial Q_t(s_t,u_t)}{\partial \xi_{FIS}} \big\} \quad (eq.5.61) ξFIS(t+1)=ξFIS(t)+ηδt{ γλet1+ξFISQt(st,ut)}(eq.5.61)

ξ F L C ( t + 1 ) = ξ F L C ( t ) + ζ δ t { ∂ u ∂ ξ F L C ( u n − u σ n ) } ( e q . 5.62 ) \xi_{FLC}(t+1) = \xi_{FLC}(t) + \zeta \delta_t \big\{ \cfrac{\partial u}{\partial \xi_{FLC}} \big( \cfrac{u_n-u}{\sigma_n} \big) \big\} \quad (eq.5.62) ξFLC(t+1)=ξFLC(t)+ζδt{ ξFLCu(σnunu)}(eq.5.62)

其中:

∂ Q t ( s t , u t ) ξ F I S = [ ∂ Q t ( s t , u t ) ∂ K l ∂ Q t ( s t , u t ) ∂ σ i l ∂ Q t ( s t , u t ) ∂ c i l ] = [ ∑ l ω ˉ l ( K l − Q t ( s t , u t ) ) ∑ l ω l    ω l    2 ( x i − c i l ) ( σ i l ) 2 ( K l − Q t ( s t , u t ) ) ∑ l ω l    ω l    2 ( x i − c i l ) 2 ( σ i l ) 3 ] ( e q . 5.63 ) \cfrac{\partial Q_t(s_t,u_t)}{\xi_{FIS}} = \begin{bmatrix} \cfrac{\partial Q_t(s_t,u_t)}{\partial K^l} \\ \cfrac{\partial Q_t(s_t,u_t)}{\partial \sigma_i^l} \\ \cfrac{\partial Q_t(s_t,u_t)}{\partial c_i^l} \end{bmatrix} = \begin{bmatrix} \sum_l \bar{\omega}_l \\ \cfrac{(K^l-Q_t(s_t,u_t))}{\sum_l\omega_l} \; \omega_l \; \cfrac{2(x_i-c_i^l)}{(\sigma_i^l)^2} \\ \cfrac{(K^l-Q_t(s_t,u_t))}{\sum_l\omega_l} \; \omega_l \; \cfrac{2(x_i-c_i^l)^2}{(\sigma_i^l)^3} \end{bmatrix} \quad (eq.5.63) ξFISQt(st,ut)=

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值