[论文阅读] 具有交错深度强化学习的未知环境中的高效多智能体合作导航

非著名科研萌新

已于 2022-11-11 17:03:34 修改

阅读量840

点赞数

文章标签：论文阅读

于 2022-11-09 10:56:38 首次发布

本文链接：https://blog.csdn.net/weixin_47920755/article/details/127760179

版权

该论文提出了一种交错深度强化学习（IDRL）方法，用于解决多智能体在未知环境中高效协作导航的问题。通过将导航策略分解为动态目标选择和碰撞避免策略，IDRL能更好地处理未分配目标的情况。与传统的基于强化学习的解决方案相比，IDRL通过非启发式设计的奖励函数减少了收敛时间和提高了性能。在实验中，IDRL相比于单智能体DDPG和MADDPG，展示了更短的导航时间和更优的路径规划。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[论文阅读] 具有交错深度强化学习的未知环境中的高效多智能体合作导航

论文原标题：EFFICIENT MULTI-AGENT COOPERATIVE NAVIGATION IN UNKNOWN ENVIRONMENTS WITH INTERLACED DEEP REINFORCEMENT LEARNING
文章来源：ICASSP 2019
原文链接：https://ieeexplore.ieee.org/abstract/document/8682555

摘要

本文解决了一个多智能体协作导航问题，即多个智能体在未知环境中协同工作，在不发生碰撞的情况下到达不同的目标，并最大限度地减少它们花费的最大导航时间。典型的基于强化学习的解决方案直接将协作导航策略建模为steering policy。然而，当每个智能体不知道要前往哪个目标时，这种方法可能会延长收敛时间并降低整体性能。为此，我们将导航策略建模为动态目标选择策略和碰撞避免策略的组合。奖励函数直接从优化目标函数导出，而不是使用启发式设计方法。

简介

多智能体协同导航问题（MCNP）是协同多智能体控制领域的一个关键问题，可应用于自主仓储物流、协同救援、协同探测等丰富的实际应用。给定工作空间中的一定数量的目标，MCNP 的目标是确保智能体能够以最少的时间消耗到达所有目标，并且不会发生冲突。

就是否根据目标进行预分配(pre-allocated)，将MCNP的解决方法分为non-learning 和learning两类。
non-learning 主要涉及根据场景模型的可调参数，或者借用SLAM为目标分配和路径规划生成全局地图，需要一个集中的全局规划器。

文章认为，使用强化学习方法解决MCNP问题，奖励函数需要考虑到action coordination and collision avoidance。文章在未知且复杂的环境中处理未分配目标的 MCNP，将导航策略建模为动态目标选择策略和碰撞避免策略的组合。提出了一种交错 DRL (IDRL) 方法来解决 MCNP，并设计了非启发式的奖励函数。

在这里插入图片描述

问题建模

当每一个智能体到达不同的目标或者任何智能体发生了碰撞，又或者到达了规定回合数，合作导航任务终止。MCNP问题可以建模为：
在这里插入图片描述
$T_{max}$ 智能体的最大导航时间， $o^0_{1:N} = (o_1^0,...,o_1^N)$ 代表了初始时刻的observation。 $I (t)$ 是指示函数， $I (t) = 1$ 代表了 $t$ 时刻每一个智能体都到达了不同的目标。 $d_r$ 是判断碰撞发生的距离阈值。
(1)式是物理意义为，当完成一个合作导航任务的时候，每一个智能体可以到达不同的目标，并且与障碍物和其他智能体保持一个安全的距离。

在上述基础上，考虑到从智能体 $A_i$ 的角度，基于 $o_{ip}^t$ 和 $o_{id}^t$ 可以得知所有智能体的到达状态和智能体 $A_i$ 与其他智能体和障碍物之间的距离，所以智能体 $A_i$ 的目标优化函数为：
在这里插入图片描述
从而实现了分布式控制的问题。

方法

奖励设计

在(2)优化函数的基础上，设计奖励函数。引入单位冲激响应 $\delta(·)$ 和阶跃函数来标记(2)中的限制是否得到满足。例如 $\delta(I(t)-1)=1$ 时，限制(1)得到了满足。从而将(2)转化为：
在这里插入图片描述
其中 $C_1,C_2,C_3>0$ 。为了保证等效性， $C_1$ 应足够大来避免碰撞。
$A_i$ 在t时刻的奖励为 $r_i^t$ ， $\gamma=1$ ，奖励如下：

也可以表示为：

Interlaced DRL for MCNP

MCNP中的agents是同质的(homogeneous)，可以共享奖励函数和策略。导航策略可以视为动态目标选择策略和碰撞避免策略的结合，当每个智能体选择好一个策略后，MCNP就近似为一个single-agent 的导航问题。文章提出了 interlaced DRL（IDRL）方法来进行策略的学习。
在这里插入图片描述
智能体在其可视范围内旋转来选定目标，得到测距结果 $o_{id}^t$ (将第一个元素 $d_{i,1}^t$ 设置为目标方向的测距结果)。如果目标方向没有障碍物，那么智能体就会向选中的目标运动，否则就会进行碰撞避免策略。
目标选择策略的动作空间是离散的，采用DQN。碰撞避免策略的空间是连续的，采用DDPG。考虑到目标选择策略和碰撞避免策略是耦合的，采用了一个统一的结构来学习二者的Q函数。
在这里插入图片描述

在这里插入图片描述

实验设计

在一个随机分布着十个圆形或方形障碍物的 $30*30m^2$ 平面上进行实验测试。障碍物的直径或者边长服从均匀分布，设定目标数和智能体的个数分别为2,detection beams =7，有效测距范围 $d_e =4m$
首先在无障碍环境中预训练目标选择策略。之后，新添加障碍物，同时训练目标选择策略和碰撞避免策略。
与单智能体DDPG和MADDPG进行比较。DDPG中随机分配目标，可以视为之学习了碰撞避免策略。在 MADDPG 中，智能体旨在直接学习转向策略，该策略输出将目标选择动作与避撞动作混合的转向角。实验结果，智能体的目标是直接学习如图所示：
在这里插入图片描述
为了评估 IDRL 学习的策略，选择了两个典型的场景样本并显示了导航轨迹。

在图 3(a)中，目标选择结果以不同的颜色显示。它们表明智能体可以在导航过程中动态选择目标。同时，观察到随着导航过程的进行，这两个智能体可以合作选择不同的目标。
图3(b)中，与MADDPG进行比较，IDRL学习到了不那么曲折的轨迹。原因是在 IDRL 中，当智能体在其选定的目标方向上没有观察到障碍物时，它只需要直奔目标。两种方法之间的导航时间差异可以通过轨迹长度来衡量。结果表明IDRL 学习的策略完成协作导航所需的时间少于 MADDPG。
为了定量分析不同方法的表现，提出了平均到达目标率（mean arrival rate, 每一个智能体能够到达不同的目标且不发生碰撞），和平均最大导航时间(mean maximum navigation time)。在1000个随机生成的场景下进行测试，结果如图所示：
在这里插入图片描述

总结

提出了IDRl方法，可以同时学习动态目标选择策略和碰撞避免策略来解决MCNP问题，奖励函数是直接导出的，而不是采用启发式方法。