论文阅读——基于改进深度强化学习的多无人艇任务规划方法(IF=8.2)

原文链接:Multi-USV Task Planning Method Based on Improved Deep Reinforcement Learning | IEEE Journals & Magazine | IEEE Xplore


目录

目的

贡献

其他方法缺点

挑战

系统模型

约束条件

自主避障

盟军学习框架

自主避碰

任务分配

USV编队学习框架 

源域中的最优策略

目标域中的最优策略

收敛性证明

仿真

其他算法缺点

MAPPO优点

算法方面

任务分配方面

路径规划方面

展望


目的

任务分配的目的:为编队中的每艘USV分配一个任务列表,并根据任务列表为每艘USV规划航行路径,保证编队任务执行效率的最大化。

自主避碰的目的:根据USV在其探测范围内遇到的船舶的运动特性,重新规划USV的航行路径,确保无人驾驶船舶的航行安全。


贡献

1) 利用VDN的思想,将任务规划问题分解为两个子问题:a)任务分配和B)自主避碰。为每个子问题定制不同的状态空间、动作空间和奖励函数。然后,利用深度神经网络将每个子问题的状态空间映射到每个USV的动作空间。深度神经网络生成的策略通过相应的奖励函数进行评估。这就成功地将任务分配和路径规划集成到一个全面的任务规划框架中。

2) 设计一个联盟军队学习框架。

首先,改进PPO

然后,采用VDN将价值函数分解为两部分:一部分用于评价任务分配方案和协同运动轨迹的优劣,记为Qπθσ;另一部分用于评价避碰策略的有效性,记为Qπθiσ。

Qπθiσ函数的更新只需要考虑单个USV的观测信息和动作信息,因此,采用改进的时域差分误差法训练用于逼近Qπθiσ函数的深度神经网络。

Qπθσ函数的更新需要考虑所有USV的观测信息和动作信息的问题,采用后继特征组合和改进的时域差分误差法训练用于逼近Qπθσ函数的深度神经网络。

3) 设计了一个无人艇编队学习框架。

以盟军学习框架为基础,融合了层级机制、区域分工机制和迁移学习方法。这使得盟军中的多USV所获得的知识能够传递到整个编队,从而使得多USV能够快速而准确地学习。


其他方法缺点

集中式任务分配:很大程度上依赖于决策agent,难以解决大规模,多目标和复杂的任务分配问题,而且在决策代理故障或攻击的情况下,编队的任务分配方案可能会受到严重影响。

分布式任务分配:由于智能体之间观测精度的差异以及观测噪声等不确定性的影响,智能体之间的任务分配结果往往会出现冲突,从而导致不必要的资源消耗,大大降低编队内任务执行的整体效率。

经典的数学优化模型:在简化复杂的任务分配模型时,可能会阻碍在复杂的任务分配过程中的多个影响因素之间的潜在关系的充分表达,特别是在涉及实时决策,动态环境和大规模多智能体系统的情况下。此外,也没有考虑动态环境中的agent的路径规划。


挑战

1) 在多USV系统中,个体USV的行为决策会受到其他USV的影响,导致环境的非平稳性。由于MARL算法迭代优化主要依赖于从与环境的交互中获得的数据。环境的非平稳性会影响样本数据的分布,从而导致训练过程中算法的不稳定性。

2) 随着编队内USV的增加,多USV系统的联合观测空间和联合行动空间将呈指数级扩展,面临着探测空间大、训练时间长、收敛困难等挑战。

3) 针对任务规划问题,在复杂的环境和复杂的任务中,设计合适的奖励函数是一个非常具有挑战性的问题。


系统模型

假设多个USV采用动态联盟机制的编队结构,协同采集目标海域智能浮标的水下数据,则假设编队由1个Leader_USV和n个Follower_USV组成。

以距离为原则划分联盟。

在每个盟军内部,成员之间以信息密度为竞争基础,信息密度最高的成员成为相应联盟军的首领

每个联盟军队的领导者可以直接与Leader_USV通信,而联盟成员通过与各自联盟军队的领导者通信来间接与Leader_USV通信。 


对于任务分配问题,要考虑的约束包括环境因素,任务要求,目标状态,以及编队中每个USV的任务执行能力。

任务分配目标是最大限度地提高编队任务的执行效率。通过任务分配方案和协同运动轨迹的性能,评估编队任务执行的效率。

为保证任务分配方案和协同运动轨迹的可行性,任务执行的agent需要在构建过程中充分考虑约束。


约束条件

1. 无冲突任务分配方案的约束: 无冲突任务分配方案是指每个任务最多只能由一个执行者完成。

2. 满足安全(避障)和节能的约束。

3. USV和智能浮标之间的通信距离约束。

4. 对USV任务执行能力的约束: 如果USVi在执行任务期间耗尽其机载燃料,它将失去执行剩余任务的能力,从而导致重大损失。

此外,由于USV具有欠驱动、大惯性和强时滞的特点,规划的路径必须符合USV最小转弯半径的约束。

5. 多USV协作约束: 规划的协作运动轨迹应确保编队中的所有USV同时到达其在装配区域内的对应位置。


自主避障

USVi通过改变速度

引用: ERROR: Could not find a version that satisfies the requirement cudnn==8.2.1.32 (from versions: none) 。 引用: 出现了报错 ERROR: Could not find a version that satisfies the requirement cudnn==8.2.1.32 (from versions: none) ERROR: No matching distribution found for cudnn==8.2.1.32 。 引用: 今天用pycharm装PIL安装失败,提示如下图。我用的python是3.5版本。 错误原因:后来发现我的是64位电脑,官网提供的安装包只有32位的。 ... 什么版本的python及少位就选相应的选项就行。我的是35版本的python、64位...。 根据您提供的引用内容,报错信息"ERROR: Could not find a version that satisfies the requirement cudnn==8.2.1.32 (from versions: none)"意味着没有找到满足要求的 cudnn==8.2.1.32 版本的安装包。 这可能是因为您当前使用的Python环境不兼容或缺少必要的依赖项。 为了解决这个问题,您可以尝试以下几个步骤: 1. 确认您正在使用的Python版本和位数,确保与您安装的软件包要求相匹配。例如,如果您使用的是Python 3.5 64位版本,您需要下载并安装相应的 cudnn 8.2.1.32 64位版本。 2. 检查您的环境是否缺少其他依赖项。有时安装特定软件包需要先安装其他的依赖项。您可以查看相关文档或社区讨论以了解是否需要安装其他依赖项。 3. 如果您的Python环境是通过包管理器(如pip)安装的,尝试升级或更新您的包管理器。有时候旧版本的包管理器可能无法正确地解析和安装特定的软件包。 4. 如果仍然无法解决问题,建议您查阅相关文档、报错信息或向相关社区提问以获得更具体的帮助和解决方案。 综上所述,如果出现报错"ERROR: Could not find a version that satisfies the requirement cudnn==8.2.1.32 (from versions: none)",您可以根据上述步骤尝试解决问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【ERROR: Could not find a version that satisfies the requirement torch==1.6.0+cu101 (from versions: ...](https://blog.csdn.net/a5_b6c7/article/details/129157186)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [Could not find a version that satisfies the requirement PIL (from versions: ) No matching distribu](https://download.csdn.net/download/weixin_38722721/13750519)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值