Q(λ)-leaming Fuzzy Logic Controller For a Multi-robot System 2020-09-28

最新推荐文章于 2022-06-13 20:32:01 发布

喝酸奶不舔瓶盖子

最新推荐文章于 2022-06-13 20:32:01 发布

阅读量639

点赞数

分类专栏：强化学习文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_45615278/article/details/108850080

版权

强化学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

论文阅读：Q(λ)-leaming Fuzzy Logic Controller For a Multi-robot System

地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5641791&tag=1

Q(λ)-leaming的模糊逻辑控制器多机器人系统

摘要：

本文解决了模糊逻辑控制器的输入和输出参数调整问题。提出了一种将Q（λ）学习与函数逼近相结合的新技术（模糊推理系统）。该系统无需监督或先验培训数据即可自主学习。所提出的技术被应用于追击-逃避差分游戏，其中追击者和逃避者都自学其控制策略。所提出的技术与经典控制策略，仅Q（λ）学习和技术在[1]中提出，其中将神经网络用作函数Q学习的近似值。计算机仿真表明了该技术的实用性。
关键词：差分游戏，函数逼近，模糊控制，多机器人，逃避，Q（λ）学习，强化学习。

INTRODUCTION

目前，模糊逻辑控制器（FLC）已用于工程应用中，特别是对于那些关于其环境的知识，复杂且定义不清的工厂以及不确定性高的工厂，例如自主移动机器人系统[2]。但是，FLC的缺点是无法找到基于冗长而不可靠的试错过程。为了克服这个缺点，可以使用需要教师或输入/输出培训数据的监督学习[3]，[4]。但是，在许多实际情况下，该模型是完全或部分未知的，而且困难或昂贵，并且在某些情况下，不可能获得训练数据。在这种情况下，最好使用强化学习（RL）。

RL是一种通过与环境交互来学习的计算方法[5]。 RL的主要优点是它不需要老师或已知模型。 RL适用于智能机器人控制，尤其是在现场自主移动机器人[6]。

在[1]中，使用RL方法来调整参数FLC。此方法适用于单个机器人的单个案例沿着一条直线跟随。在[7]中，作者提出了一种混合学习方法，该方法将神经模糊系统与RL结合在两阶段结构中，并应用于避障移动机器人。在阶段1中，使用监督学习来调整FLC的参数，然后在阶段2中，使用RL，以便系统可以重新适应新的环境。他们的方法的局限性在于，如果很难获得训练数据或花费昂贵，那么就不能应用监督学习。在[8]中，作者通过使用Q-Iearning作为专家来获得训练数据来克服了这一限制。然后将训练数据用于调整应用于移动机器人路径规划问题的人工神经网络控制器的权重。

在[9]中，研究了一种多机器人追逃游戏。该模型由空中和地面车辆组成。但是，无人驾驶汽车并不是在学习，它们只是做从中央计算机系统收到的动作。在[10]中，讨论了在多主体追击逃避问题中RL的使用。个体代理学习特定的追求策略。但是，作者没有使用现实的机器人模型或机器人控制结构。在[11]中，RL被用来在追逐游戏中调整FLC的输出参数。

从几种学习技术中，我们选择RL。 RL与学习代理不知道必须做的事情有关。但是，单独使用RL的局限性在于RL方法仅设计用于离散状态作用空间。由于我们想在连续领域的机器人领域中使用RL，因此我们需要使用某种类型的函数逼近，例如模糊推理系统（PIS），将离散状态作用空间概括为连续状态作用空间。因此，从RL的角度来看，将PIS用作函数近似来补偿RL中的限制。并且从PIS的角度来看，RL用于调整PIS的输入和/或输出参数。因此，将RL和PIS结合起来有两个目标：以补偿RL中的限制并调整FLC的参数。

许多文章使用FIS作为Q-earning [12]-[14]的函数近似。但是，这些工作具有以下缺点：（i）动作空间被认为是离散的，（ii）仅对PIS的输出参数进行了调整。在本文中，我们提出了一种称为Q（λ）学习模糊推理系统（QLPIS）的新技术。所提出的QLPIS将Q（λ）学习与FIS结合在一起，可直接用于连续状态作用空间。此外，它还用于调整FLC的输入和输出参数。建议的QLPIS中的学习过程是同时执行的。 PIS用作函数近似值，以估计最佳作用值函数Q *（s，a），而Q（λ）学习用于调整FIS和FLC的输入和输出参数。

本文的组织如下：RL和PIS的一些基本术语分别在第二部分和第三部分中进行了概述。在第四节中，描述了追逃游戏。第五节介绍了拟议的QLFIS技术。第六节介绍了计算机仿真，第七节讨论了结果。

二强化学习

RL中的主体与环境的相互作用如图1所示[5]。它主要由两个部分组成，一个机器人试图采取行动以使折现收益R最大化，以及一个为机器人提供奖励的环境。时间t的折现收益Rt定义为：

其中 $r_{t+1}$ 是即时奖励，“ γ是折扣因子，（0 < γ< 1），T为终点。在状态s下执行的动作a,策略π由操作值函数Q^{π}（s,a）评估,

其中是策略下的预期值。 RL方法通过搜索最优值函数Q *（s，a）来搜索最优策略

已经提出了许多用于估计最优值函数的方法。在这里，我们关注于最广泛使用和最著名的控制算法，称为Q-earning [15]，[16]。

Q学习是一种离线的算法。这意味着它具有学习能力，而无需遵循当前的政策。状态和动作空间是离散的，它们的对应值函数存储在所谓的Q表中。要对连续系统（连续状态和动作空间）使用Q-earning，可以离散化状态和动作空间[17]，[18]或使用某种类型的函数逼近，例如PIS [14]，神经网络（NN） [1]，或使用某种优化技术，例如遗传算法（GA）[19]。
Q学习的一步更新规则定义为：

其中a是学习率（0 <α<1），而 $\Delta _{t}$ 是时差误差（TO-error）定义为:

公式（4）根据从环境中获得的立即回报来更新价值函数。要基于多步更新规则更新值函数，可以使用资格迹[5]。资格迹用于将单步TD算法TD（O）修改为多步TD算法TD（λ）。连续状态和连续空间的资格迹定义为：

其中eo = 0，λ是跟踪衰减参数，（0 < λ <1），φ是要调整的参数。资格跟踪用于加快学习过程，因此使其适合于在线应用程序。现在我们将（4）修改为：

三模糊推理系统

使用最广泛的PIS模型是Takagi-Sugeno-Kang（TSK）[20]。为简单起见，我们使用零阶TSK模型，其中输出为常数函数。零阶TSK模型中用于N个输入的规则的形式为：

其中 $A_{i}^{l}$ 是第i个输入变量 $i^{th}$ 的模糊集，规则RI，l = 1,2,... ，L， $k_{l}$ 是规则RI中输出 $f_{l}$ 的后续参数。可以使用其中一种去模糊技术将模糊输出解模糊为清晰的输出。在此，使用加权平均法，定义如下:

其中 $\mu ^{A^{_{i}^{l}}}$ $μ^{A_{i}^{l}}$ 是规则RI中输入Xi的模糊集 ${A^{_{i}^{l}}}$ $μ^{A_{i}^{l}}$ 的隶属度值。由于其简单的公式和计算效率，高斯隶属度函数（MF）已被广泛使用，尤其是在实时实现和控制中。高斯MF定义为:

其中 $\sigma$ 和m分别是标准偏差和平均值。

这项工作中使用的FIS的结构如图2所示。在不失一般性的前提下，我们假设PIS模型具有两个输入X1和X2，以及一个输出f。每个输入具有三个高斯MF。该结构有两种类型的节点：第一种是自适应节点（方形），其输出需要进行调整（调整），第二种是固定节点（圆形），其输出是其已知函数输入。
该结构有5层。在第1层中，所有节点都是自适应的。该层有6个输出，用 $O^{^{1}}$ 表示。第1层中每个节点的输出是其输入的成员资格值，由（10）定义。在第2层中，所有节点都是固定的。在此层中计算每个规则的输入之间的AND运算（乘法）。该层有9个输出，用 $O_{l}^{2}$ 表示，I = 1,2，...，9。 $W_{l}$ 层2中每个节点的输出称为规则的触发强度。计算如下:

在第3层中，所有节点都是固定的。该层有9个由 $O_{l}^{3}$ 表示的输出。第3层中每个节点的输出是归一化的发射强度 $\bar{W}_{l}$ ，其计算如下:

在第4层中，所有节点都是自适应的。在该层和下一层中执行去模糊处理。第4层有9个输出，用 $O_{l}^{4}$ 表示。每个节点的输出是:

第5层是输出层，只有一个固定节点，其输出f是其所有输入的总和，如下所示:

与（9）相同。

IV 追击逃避差分游戏

追逃式微分游戏是微分游戏的一种应用[21]，其中追逐者试图在最短时间内抓住逃避者，而逃避者试图逃避追随者。追踪逃避模型如图3所示。追踪/逃避机器人的运动方程为[17]。

其中“ i”是对追随者的“ p”，而对于逃避者是“ e”，（Xi，Yi）是机器人的位置，Vi是速度，Bi是方向，Li是机器人的轴距， Ui是转向角， $u_{i}\in [-u_{i_{max}},u_{i_{max}}]$ 。

我们的方案是使追击者比逃避者快（Vp> Ve），但同时使其比逃避者的机动性差（ $u_{p_{max}}<u_{e_{max}}$ ）。我们比较结果的经典控制策略定义为:

当追赶者与逃避者之间的距离小于一定量C时，就会发生捕获。此量称为捕获半径，其定义为:

追逃模型

五、提出的Q(λ)-learning模糊推理系统

所提出的QLPIS的结构如图4所示，它是[1]和[11]中提出的技术的修改版本。 FIS用作Q（λ）学习的函数近似，以将离散状态和动作空间概括为连续状态和动作空间。同时，TD-error， $\Delta _{t}$ 用于调整PIS和FLC的参数。

提出的QLPIS与[11]中提出的区别在于，作者使用FIS来近似值函数V（s），但是提出的QLPIS被用来近似作用值函数Q（s，a）。另外，在[11]中，作者仅调整了FIS和FLC的输出参数，而在这项工作中，对PIS和FLC的输入和输出参数进行了调整。的原因在我们的工作中选择“ Q-earning”是因为它胜过actor-critic learning[22]。 Q学习actor-critic learning的主要优势是探索不敏感，因为Q-learning是一种离线算法（请参阅第二部分），而actor-critic learning是一种在线学习算法。

现在，我们将得出PIS和FLC的输入和输出参数的自适应律。适应律将仅得出一次，并且适用于PIS和FLC。我们的目标是使TD误差 $\Delta _{t}$ 最小，并且通过使用均方误差（MSE），我们可以将误差表示为：

我们使用梯度下降方法，根据最速下降算法，我们沿-ve梯度进行了更改以使误差最小，因此，

其中 $\eta$ 是学习率， $\phi$ 是PIS和FLC的参数矢量，其中 $\phi$ = [ $\sigma$ ，m，K]。参数向量 $\phi$ 要调整。从（19）我们得到：

然后从（5）

代入（20），我们得到：

我们可以从（14）获得输出参数 $K_{l}$ 的 $\alpha Q_{t}(s_{t},u_{t})/\delta \phi$ ，其中f是PIS的 $Q_{t}(s_{t},u_{t})$ ，fC是FLC的u，如下所示

然后，我们可以根据链式规则获得 $\alpha Q_{t}(s_{t},u_{t})/\delta \phi$ 的输入参数 $\sigma ^{_{l}^{i}}$ 和 $m_{l}^{i}$ ：

项 $\alpha Q_{t}(s_{t},u_{t})/\delta \phi$ 由（14）和（12）计算得出。项 $\delta\omega_{l}/\delta\sigma _{l}^{i}$ 和 $\delta\omega _{l}/\delta m^{_{l}^{i}}$ 从（11）和（10）计算得出，因此:

替换（6）中的（24），（27）和（28）并修改（23）以使用合格性跟踪，则PIS参数的更新定律变为:

通过用FLC的输出u替换 $Q_{t}(s_{t},u_{t})$ ，也将（23）中的更新定律应用于FLC。此外，如图4所示，随机高斯噪声 $n(0,\sigma _{n})$ ，FLC的输出中添加了零均值和标准偏差 $\sigma_{n}$ 来解决勘探/开发难题，因此将FLC参数的更新定律定义为:

其中， $U_{c}$ 是随机高斯噪声发生器的输出， $\xi$ 是FLC参数的学习率。可以通过用（24），（27）和（28）中的FLC输出u替换 $Q_{t}(s_{t},u_{t})$ 来计算 $\delta _{u}/\delta _{\phi }$ 项。

FLC有两个输入，即在（17）中定义的角度误差 $\delta _{i}$ 及其导数 $\dot{\delta _{i}}$ ，输出为转向角 $U_{i}$ 。我们将高斯MF用于FLC的输入。我们还使用由（8）定义的零阶TSK。使用（9）计算清晰的输出 $U_{i}$ 。
A.构建奖励函数
在逃避游戏中，追逐者想在最短的时间内赶上逃避者。换句话说，追踪者希望在每个时间步长减小其与逃避者的距离。计算出在时间t时刻，追踪者与逃避者之间的距离，计算如下：

两个连续距离之间的差 $\Delta D(t)$ 计算为：

$\Delta D(t)$ 的正值表示跟踪者接近逃避者。 $\Delta D(t)$ 的最大值定义为：

其中 $V_{rmax}$ 是最大相对速度（ $V_{rmax}=V_{p}+V_{e}$ ），T是采样时间。因此，我们选择奖励r:

VI. 计算机模拟

我们使用2 GHz核心计算机，时钟频率为2.0 GHz，RAM为4.0 GB。我们使用MATLAB软件进行计算机仿真。躲避者的初始位置是从空间中的64个不同位置中随机选择的。
追踪器从位置（0,0）开始运动，初始方向Bp = 0，恒速Vp = 2.0 mls。轴距Lp = 0.3 m，转向角增加E [-0.5,0.5]。
躲避者从每个位置的随机位置开始运动，初始方向为Be = 0，恒定速度Ve = 1.0毫升，这是追击者速度的一半（较慢）。轴距Le = 0.3 m，转向角 $u_{e}\in [-1.1]$ ,是追随者的两倍（可操纵性更高）。捕获半径 $\xi$ = 0.10 m。抽样时间设置为0.1秒。
在拟议的QLFIS中，我们选择情节（游戏）数为1000，每个情节的剧本（步数）为600，“ I = 0.95，A = 0.9。随着每一慕的减少，随着每一集的减少,我们将PIS的学习率设为' $\eta$ 。

并使FLC的学习率e随每一步降低；

当前的情节是“我” 注意，'fI的值是e的值的10倍，即，PIS比FLC收敛更快，以避免调整FLC的参数的不稳定。我们选择= 0.08。
为了验证所提出的QLFIS技术，我们将其结果与经典控制策略，仅Q（A）学习和[1]中提出的技术的结果进行比较。追随者和逃避者的经典控制策略由（16）和（17）定义。 Q（A）学习的参数仅具有以下值：情节数设置为1000，每个情节的播放次数为6000，“ $\gamma$ = 0.5且 $\lambda$ = 0.3。我们将学习率 $\alpha$ 随着每一周期而减少。

我们还使 $\varepsilon$ 随着每个步骤而减少，从而：

i在哪里，哪里就是当前周期。
对于[1]中提出的技术，我们为神经网络的参数选择相同的值。 NN具有由7-21-1个节点组成的三层结构。选择FLC的RL参数以及输入和输出参数的初始值，使其与建议的QLPIS中选择的参数相同。我们选择= 0.1，它将每个情节减少1 / i，其中i是当前周期。

七.结果

为了检查不同技术的性能，我们不能将捕获时间用作度量，因为在此游戏中，追踪者和逃避者都在学习，因此我们发现的捕获时间小于经典解决方案所对应的捕获时间。当然，这并不意味着性能要比经典解决方案好，而是意味着逃避者学习得不好，因此它会在更短的时间内被捕获。因此，我们使用的度量是追踪者和逃避者的路径，而不是捕获时间。图5，图6和图7显示了不同技术的追踪器和躲避装置的路径，与追踪器和躲避装置的经典控制策略相对。
我们可以看到，最好的性能是所提出的QLPIS。表一显示了不同技术的学习时间。从该表中可以看出，与[1]中提出的技术相比，提出的QLPIS具有最短的学习时间。最后，我们可以得出结论，提出的QLPIS在性能和学习时间上均优于[1]中提出的技术。

八. 结论

在本文中，我们提出了一种新颖的技术来调整FLC的输入和输出参数，其中RL与PIS结合作为函数逼近，以将状态和动作空间推广到连续情况。所提出的技术被应用于追逃游戏，在该游戏中，追随者和逃避者都不知道其控制策略。计算机仿真和结果表明，与经典控制策略相比，所提出的QLPIS技术在性能上优于其他技术，并且在学习时间上也是重要的因素，尤其是在在线应用中。