5.[论文荐读] 基于深度强化学习的欠驱动无人船目标拦截和避障策略设计

Keeprunning_Yu

已于 2023-12-04 13:00:53 修改

阅读量708

点赞数 1

分类专栏：无人机路径规划文章标签：无人机

于 2023-12-04 13:00:12 首次发布

原文链接：https://mp.weixin.qq.com/s/WlVJbkPvf5zX89Lx5GJlBQ

版权

无人机路径规划专栏收录该内容

7 篇文章

订阅专栏

文章介绍了一种基于深度强化学习的无人艇目标拦截策略，通过APF算法和多目标均衡奖励函数，有效平衡了拦截效率与避障安全。实验结果显示，新算法相较于传统方法更为平稳且安全。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标题：DRL-based target interception strategy design for an underactuated USV without obstacle collision

期刊：Ocean Engineering 280（2023）114443.

作者：Chenming Zhang，Peng Cheng，Bin Lin，Weidong Zhang，Wei Xie

单位：Department of Automation, Shanghai Jiao Tong University

1、研究背景：

水面无人艇(USV)由于具有智能、低成本和多功能性的优点，在近年来受到广泛的关注。USV可以完成领海巡逻、海军护航、港口防御和海上救援等任务。完成上述任务需要USV同时具备目标拦截和避障的能力。同时，敌对船只的规避策略和动态障碍物运动的不确定性让任务更具挑战性。为了解决上述问题，论文设计了一种基于深度强化学习的目标拦截的避障策略，并通过多目标均衡的方法来平衡拦截时间和避障安全的矛盾。

2、论文创新点：

1、对敌对船只采取了APF算法；

2、在奖励函数的设置上引入了多目标均衡的思想，平衡了拦截时间和避障的矛盾。

3、研究方法：

如图1所示，论文提出了一种基于深度强化学习的目标拦截和避障策略，并通过对奖励函数进行多目标均衡来平衡拦截时间和避障之间的矛盾。

图1 深度强化学习框架

为了更符合现代海上拦截的要求，本文对敌对船只采用了人工势场法（APF）的避障策略，而不是简单的直线或是曲线运动。敌对船只P受到三个物体的势场，分别是目标点Pt对其的引力场，障碍物Po对其的斥力场和拦截船只Pi对其的斥力场，具体的APF算法公式如下：

论文主要解决的是拦截问题，因此在状态空间的设置上主要关注拦截过程的误差：航向角误差、速度误差和距离误差。状态空间的表达式如下：

除了上文提到的误差，状态空间还包含了敌对船只的速度，和距离拦截船只最近的三个障碍物的坐标、障碍物的半径以及拦截船只和障碍物的距离。

奖励函数分为两个部分，拦截奖励和避障奖励。拦截奖励主要关注航向角误差、速度误差和距离误差，同时为了更好实现拦截任务，还设置了额外奖励Pi。避障奖励主要为实现船只的避障，根据拦截船只与障碍物的距离设置了分段函数，同时为了让拦截船只在规定地图中航行，设计了额外的奖励Pb=300。奖励函数的表达式如下：

其中g是障碍物的危险半径，ho是障碍物半径。

在执行拦截任务时，拦截时间和避障是有冲突的，为了平衡这个冲突，论文采用了多目标均衡的方法，具体体现在奖励函数拦截奖励和避障奖励的系数n0和n1上。文章用增量调节器在调整n0和n1的值，具体的表达式如下：

其中epislon_d是上一个回合拦截船只离障碍物的最近距离。如图2所示，当这个距离小于危险半径时，认为拦截船只有碰撞的风险，因此在这个回合中会增大避障奖励的系数来让拦截船只尽量远离障碍物。反之，若拦截船只在上一个回合距离障碍物较远，拦截的时间较长，在这个回合中就会增加拦截奖励的系数以引导拦截船只在避障的前提下沿一条更加短的路径航行。

图2 拦截船只的多目标均衡

论文的实验地图为1200*800（m），障碍物的半径为60m到100m不等，危险半径为40m，拦截船只起点为（50，50），时间步设置为0.1s，斥力场的范围为300m。每次训练2500个episode，每个episode包含2000步。如图3是加入多目标均衡的DRL算法和不加入多目标均衡的DRL的平均奖励曲线。

图3 平均奖励函数

由图3可知，训练初期的奖励值很小，这说明训练的初始阶段神经网络无法输出正确的行为。在前500个episode中，奖励急剧上升，这说明在这个过程中，通过与环境的交互，神经网络可以粗略输出正确行为。在后面的episode中，平均奖励值趋向收敛。加入了多目标均衡的平均奖励曲线振荡幅度较大，这是因为调整奖励函数中系数的缘故，但是到最后还是趋向于稳定。

为了验证加入多目标均衡的DRL算法较原DDPG算法的优越性，论文进行了对比实验，实验结果如图4所示。