[论文阅读] 具有交错深度强化学习的未知环境中的高效多智能体合作导航

该论文提出了一种交错深度强化学习(IDRL)方法,用于解决多智能体在未知环境中高效协作导航的问题。通过将导航策略分解为动态目标选择和碰撞避免策略,IDRL能更好地处理未分配目标的情况。与传统的基于强化学习的解决方案相比,IDRL通过非启发式设计的奖励函数减少了收敛时间和提高了性能。在实验中,IDRL相比于单智能体DDPG和MADDPG,展示了更短的导航时间和更优的路径规划。
摘要由CSDN通过智能技术生成

[论文阅读] 具有交错深度强化学习的未知环境中的高效多智能体合作导航

论文原标题:EFFICIENT MULTI-AGENT COOPERATIVE NAVIGATION IN UNKNOWN ENVIRONMENTS WITH INTERLACED DEEP REINFORCEMENT LEARNING
文章来源:ICASSP 2019
原文链接:https://ieeexplore.ieee.org/abstract/document/8682555

摘要

本文解决了一个多智能体协作导航问题,即多个智能体在未知环境中协同工作,在不发生碰撞的情况下到达不同的目标,并最大限度地减少它们花费的最大导航时间。 典型的基于强化学习的解决方案直接将协作导航策略建模为steering policy。 然而,当每个智能体不知道要前往哪个目标时,这种方法可能会延长收敛时间并降低整体性能。 为此,我们将导航策略建模为动态目标选择策略和碰撞避免策略的组合。 奖励函数直接从优化目标函数导出,而不是使用启发式设计方法。

简介

多智能体协同导航问题(MCNP)是协同多智能体控制领域的一个关键问题,可应用于自主仓储物流、协同救援、协同探测等丰富的实际应用。 给定工作空间中的一定数量的目标,MCNP 的目标是确保智能体能够以最少的时间消耗到达所有目标,并且不会发生冲突

就是否根据目标进行预分配(pre-allocated),将MCNP的解决方法分为non-learning 和learning两类。
non-learning 主要涉及根据场景模型的可调参数,或者借用SLAM为目标分配和路径规划生成全局地图,需要一个集中的全局规划器。

文章认为,使用强化学习方法解决MCNP问题,奖励函数需要考虑到action coordination and collision avoidance。文章在未知且复杂的环境中处理未分配目标的 MCNP,将导航策略建模为动态目标选择策略和碰撞避免策略的组合。提出了一种交错 DRL (IDRL) 方法来解决 MCNP,并设计了非启发式的奖励函数。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

问题建模

当每一个智能体到达不同的目标或者任何智能体发生了碰撞,又或者到达了规定回合数,合作导航任务终止。MCNP问题可以建模为:
在这里插入图片描述
T m a x T_{max} Tmax智能体的最大导航时间, o 1 : N 0 = ( o 1 0 , . . . , o 1 N ) o^0_{1:N} = (o_1^0,...,o_1^N) o1:N0=(o10,...,o1N) 代表了初始时刻的observation。 I ( t ) I(t) I(t)是指示函数, I ( t ) = 1 I(t)=1 I(t)=1代表了 t t t时刻每一个智能体都到达了不同的目标。 d r d_r dr是判断碰撞发生的距离阈值。
(1)式是物理意义为,当完成一个合作导航任务的时候,每一个智能体可以到达不同的目标,并且与障碍物和其他智能体保持一个安全的距离。

在上述基础上,考虑到从智能体 A i A_i Ai的角度,基于 o i p t o_{ip}^t oipt o i d t o_{id}^t oidt可以得知所有智能体的到达状态和智能体 A i A_i Ai与其他智能体和障碍物之间的距离,所以智能体 A i A_i Ai的目标优化函数为:
在这里插入图片描述
从而实现了分布式控制的问题。

方法

奖励设计

在(2)优化函数的基础上,设计奖励函数。引入单位冲激响应 δ ( ⋅ ) \delta(·) δ() 和阶跃函数来标记(2)中的限制是否得到满足。例如 δ ( I ( t ) − 1 ) = 1 \delta(I(t)-1)=1 δ(I(t)1)=1时,限制(1)得到了满足。从而将(2)转化为:
在这里插入图片描述
其中 C 1 , C 2 , C 3 > 0 C_1,C_2,C_3>0 C1,C2,C3>0。为了保证等效性, C 1 C_1 C1应足够大来避免碰撞。
A i A_i Ai在t时刻的奖励为 r i t r_i^t rit γ = 1 \gamma=1 γ=1,奖励如下:
在这里插入图片描述
也可以表示为:
在这里插入图片描述

Interlaced DRL for MCNP

MCNP中的agents是同质的(homogeneous),可以共享奖励函数和策略。导航策略可以视为动态目标选择策略和碰撞避免策略的结合,当每个智能体选择好一个策略后,MCNP就近似为一个single-agent 的导航问题。文章提出了 interlaced DRL(IDRL)方法来进行策略的学习。
在这里插入图片描述
智能体在其可视范围内旋转来选定目标,得到测距结果 o i d t o_{id}^t oidt (将第一个元素 d i , 1 t d_{i,1}^t di,1t设置为目标方向的测距结果)。如果目标方向没有障碍物,那么智能体就会向选中的目标运动,否则就会进行碰撞避免策略。
目标选择策略的动作空间是离散的,采用DQN。碰撞避免策略的空间是连续的,采用DDPG。考虑到目标选择策略和碰撞避免策略是耦合的,采用了一个统一的结构来学习二者的Q函数。
在这里插入图片描述

在这里插入图片描述

实验设计

在一个随机分布着十个圆形或方形障碍物的 30 ∗ 30 m 2 30*30m^2 3030m2平面上进行实验测试。障碍物的直径或者边长服从均匀分布,设定目标数和智能体的个数分别为2,detection beams =7,有效测距范围 d e = 4 m d_e =4m de=4m.
首先在无障碍环境中预训练目标选择策略。 之后,新添加障碍物,同时训练目标选择策略和碰撞避免策略。
与单智能体DDPG和MADDPG进行比较。DDPG中随机分配目标,可以视为之学习了碰撞避免策略。在 MADDPG 中,智能体旨在直接学习转向策略,该策略输出将目标选择动作与避撞动作混合的转向角。实验结果,智能体的目标是直接学习如图所示:
在这里插入图片描述
为了评估 IDRL 学习的策略,选择了两个典型的场景样本并显示了导航轨迹。
在这里插入图片描述
在图 3(a)中,目标选择结果以不同的颜色显示。 它们表明智能体可以在导航过程中动态选择目标。同时,观察到随着导航过程的进行,这两个智能体可以合作选择不同的目标。
图3(b)中,与MADDPG进行比较,IDRL学习到了不那么曲折的轨迹。原因是在 IDRL 中,当智能体在其选定的目标方向上没有观察到障碍物时,它只需要直奔目标。两种方法之间的导航时间差异可以通过轨迹长度来衡量。 结果表明IDRL 学习的策略完成协作导航所需的时间少于 MADDPG。
为了定量分析不同方法的表现,提出了平均到达目标率(mean arrival rate, 每一个智能体能够到达不同的目标且不发生碰撞),和平均最大导航时间(mean maximum navigation time)。在1000个随机生成的场景下进行测试,结果如图所示:
在这里插入图片描述

总结

提出了IDRl方法,可以同时学习动态目标选择策略和碰撞避免策略来解决MCNP问题,奖励函数是直接导出的,而不是采用启发式方法。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值