多智能体强化学习博弈系列（4）- 模糊Q(lambda)-learning

最新推荐文章于 2024-07-02 12:04:56 发布

Edward Tivrusky IV

最新推荐文章于 2024-07-02 12:04:56 发布

阅读量3.5k

点赞数 2

分类专栏：算法文章标签： RL 强化学习 fuzzy logic 博弈 multi-agent

本文链接：https://blog.csdn.net/yuuyuhaksho/article/details/88059881

版权

基于模糊输入的 $Q(\lambda)$ -learning（QLFIS）是一个由控制器和模拟器两个部分组成的模糊系统，结构类似于actor-critic learning，但由于对于action的选取仍然基于max(Q)，即唯一的最优行为，所以是Q-learning的一种。在模拟器中采用了eligibilty trace更新多个time steps中的reward，根据更新时间距离当前时间的距离，衰减参数为 $\lambda$ ，所以叫 $Q(\lambda)$ -learning。

QLFIS 系统简介

在Carleton两位教授的原始论文Q(lambda)-learning fuzzy logic controller for a multi-robot system - S. Desouky and H. Schwartz中，采用的算法不仅对控制器和模拟器的输出参数做了学习，还包含了对输入参数（membership function的参数）做了学习。
alt_text
如图所示：FLC(fuzzy logic controller)是生成最终行为 $u$ 的控制器，system是环境，会对系统输入环境反馈。FIS(fuzzy inference system)是模拟器，输出value function $Q(s_t,a)$ 。

TD error $\delta_t = r_{t+1} + \gamma max_{u'} Q(s_{t+1},u') - Q(s_t,u_t)$ 用来计算参数更新用的梯度。为简单期间，$max_{u’} Q(s_{t+1},u’) $的估算是靠计算q-table中的最大概率行为对应的Q值。

$Q_{t+1}(s_t,u_t) = Q_t(s_t,u_t) + \alpha \delta_t e_t \quad (eq.5.59)$

其中 $e_t = \gamma \lambda e_{t-1} + \cfrac{\partial Q_t(s_t,a_t)}{\partial \xi} \quad (eq.5.60)$ ，

$\xi = [K \; c \; \sigma]^T$ 是被更新的参数，更新公式：

$\xi_{FIS}(t+1) = \xi_{FIS}(t) + \eta \delta_t \big\{ \gamma \lambda e_{t-1} + \cfrac{\partial Q_t(s_t,u_t)}{\partial \xi_{FIS}} \big\} \quad (eq.5.61)$

$\xi_{FLC}(t+1) = \xi_{FLC}(t) + \zeta \delta_t \big\{ \cfrac{\partial u}{\partial \xi_{FLC}} \big( \cfrac{u_n-u}{\sigma_n} \big) \big\} \quad (eq.5.62)$

其中：

$\cfrac{\partial Q_t(s_t,u_t)}{\xi_{FIS}} = \begin{bmatrix} \cfrac{\partial Q_t(s_t,u_t)}{\partial K^l} \\ \cfrac{\partial Q_t(s_t,u_t)}{\partial \sigma_i^l} \\ \cfrac{\partial Q_t(s_t,u_t)}{\partial c_i^l} \end{bmatrix} = \begin{bmatrix} \sum_l \bar{\omega}_l \\ \cfrac{(K^l-Q_t(s_t,u_t))}{\sum_l\omega_l} \; \omega_l \; \cfrac{2(x_i-c_i^l)}{(\sigma_i^l)^2} \\ \cfrac{(K^l-Q_t(s_t,u_t))}{\sum_l\omega_l} \; \omega_l \; \cfrac{2(x_i-c_i^l)^2}{(\sigma_i^l)^3} \end{bmatrix} \quad (eq.5.63)$

最低0.47元/天解锁文章

Edward Tivrusky IV

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
3
评论
多智能体强化学习博弈系列（4）- 模糊Q(lambda)-learning

基于模糊输入的Q(λ)Q(\lambda)Q(λ)-learning（QLFIS）是一个由控制器和模拟器两个部分组成的模糊系统，结构类似于actor-critic learning，但由于对于action的选取仍然基于max(Q)，即唯一的最优行为，所以是Q-learning的一种。在模拟器中采用了eligibilty trace更新多个time steps中的reward，根据更新时间距离当前时...
复制链接

扫一扫