5.[论文荐读] 基于深度强化学习的欠驱动无人船目标拦截和避障策略设计

标题:DRL-based target interception strategy design for an underactuated USV without obstacle collision

期刊:Ocean Engineering 280(2023)114443.

作者:Chenming Zhang,Peng Cheng,Bin Lin,Weidong Zhang,Wei Xie

单位:Department of Automation, Shanghai Jiao Tong University


1、研究背景

水面无人艇(USV)由于具有智能、低成本和多功能性的优点,在近年来受到广泛的关注。USV可以完成领海巡逻、海军护航、港口防御和海上救援等任务。完成上述任务需要USV同时具备目标拦截和避障的能力。同时,敌对船只的规避策略和动态障碍物运动的不确定性让任务更具挑战性。为了解决上述问题,论文设计了一种基于深度强化学习的目标拦截的避障策略,并通过多目标均衡的方法来平衡拦截时间和避障安全的矛盾。

2、论文创新点:

1、对敌对船只采取了APF算法;

2、在奖励函数的设置上引入了多目标均衡的思想,平衡了拦截时间和避障的矛盾。

3、研究方法:

如图1所示,论文提出了一种基于深度强化学习的目标拦截和避障策略,并通过对奖励函数进行多目标均衡来平衡拦截时间和避障之间的矛盾。

图片

图1 深度强化学习框架

为了更符合现代海上拦截的要求,本文对敌对船只采用了人工势场法(APF)的避障策略,而不是简单的直线或是曲线运动。敌对船只P受到三个物体的势场,分别是目标点Pt对其的引力场,障碍物Po对其的斥力场和拦截船只Pi对其的斥力场,具体的APF算法公式如下:

图片

论文主要解决的是拦截问题,因此在状态空间的设置上主要关注拦截过程的误差:航向角误差、速度误差和距离误差。状态空间的表达式如下:

图片

除了上文提到的误差,状态空间还包含了敌对船只的速度,和距离拦截船只最近的三个障碍物的坐标、障碍物的半径以及拦截船只和障碍物的距离。

奖励函数分为两个部分,拦截奖励和避障奖励。拦截奖励主要关注航向角误差、速度误差和距离误差,同时为了更好实现拦截任务,还设置了额外奖励Pi。避障奖励主要为实现船只的避障,根据拦截船只与障碍物的距离设置了分段函数,同时为了让拦截船只在规定地图中航行,设计了额外的奖励Pb=300。奖励函数的表达式如下:

图片

其中g是障碍物的危险半径,ho是障碍物半径。

在执行拦截任务时,拦截时间和避障是有冲突的,为了平衡这个冲突,论文采用了多目标均衡的方法,具体体现在奖励函数拦截奖励和避障奖励的系数n0和n1上。文章用增量调节器在调整n0和n1的值,具体的表达式如下:

图片

其中epislon_d是上一个回合拦截船只离障碍物的最近距离。如图2所示,当这个距离小于危险半径时,认为拦截船只有碰撞的风险,因此在这个回合中会增大避障奖励的系数来让拦截船只尽量远离障碍物。反之,若拦截船只在上一个回合距离障碍物较远,拦截的时间较长,在这个回合中就会增加拦截奖励的系数以引导拦截船只在避障的前提下沿一条更加短的路径航行。

图片

图2 拦截船只的多目标均衡

论文的实验地图为1200*800(m),障碍物的半径为60m到100m不等,危险半径为40m,拦截船只起点为(50,50),时间步设置为0.1s,斥力场的范围为300m。每次训练2500个episode,每个episode包含2000步。如图3是加入多目标均衡的DRL算法和不加入多目标均衡的DRL的平均奖励曲线。

图片

图3 平均奖励函数

由图3可知,训练初期的奖励值很小,这说明训练的初始阶段神经网络无法输出正确的行为。在前500个episode中,奖励急剧上升,这说明在这个过程中,通过与环境的交互,神经网络可以粗略输出正确行为。在后面的episode中,平均奖励值趋向收敛。加入了多目标均衡的平均奖励曲线振荡幅度较大,这是因为调整奖励函数中系数的缘故,但是到最后还是趋向于稳定。

为了验证加入多目标均衡的DRL算法较原DDPG算法的优越性,论文进行了对比实验,实验结果如图4所示。

图片

图4 DDPG和多目标均衡算法的对比

由图4可知,加入了多目标均衡机制的算法控制的拦截船只的轨迹更加的平滑且拦截点距离目标点更远,更安全。这说明了加入了多目标均衡机制的DDPG算法在平衡拦截时间和避障之间的矛盾上表现得更好。

此外,为了提出的DRL控制器较APF算法的优越性,论文进行了如图5所示的对比实验。

图片

图5 DRL和APF的对比

由图5可知,在四种情形下,两个算法都完成了拦截任务,但是DRL算法的拦截路径更光滑且拦截点距离目标点更远。值得一提的是基于数学计算的APF方法控制的拦截船只在接近障碍物时倾向于采取一种逃逸策略,导致拦截的距离增加。而图b则是APF算法与生俱来的缺点,易陷入局部最优,导致了拦截船只的绕路。

4、结论:

论文提出了一种基于深度强化学习的无人船控制器以解决无人船的拦截和避障问题。论文对拦截船只使用DRL算法控制,对侵略船只使用APF算法控制。在奖励函数的设置上采用了多目标均衡的思想,通过增量控制器很好地平衡了拦截时间和避障之间的矛盾。仿真实验结果证明所提出的算法较DDPG算法和APF算法具有优越性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值