Deep Reinforcement Learning for Solving the Heterogeneous Capacitated Vehicle Routing Problem

Deep Reinforcement Learning for Solving the Heterogeneous Capacitated Vehicle Routing Problem

1、背景

本文提出了一种基于注意机制的DRL方法,来解决具有多个异构车辆的CVRP问题。其中车辆选择解码器负责异构车队约束节点选择解码器负责路线构建,它通过在每个步骤中自动选择车辆和该车辆的节点来学习构造解决方案。

2、基于注意力机制的DRL模型

在这里插入图片描述
编码器处理问题特征。
策略网络首先根据所有车辆和部分路线的状态使用车辆选择解码器从车队中选择车辆,然后在每个解码步骤使用节点选择解码器为该车辆选择一个节点。
选定的车辆和节点都构成该步骤中的动作at,其中部分解和状态会相应更新。
对于单个实例,编码器执行一次,而车辆和节点选择解码器执行多次以构造解决方案。

3、策略网络架构

在这里插入图片描述

4、编码器

在这里插入图片描述
将问题实例的原始特征(即客户位置、客户需求和车辆容量)嵌入到更高维空间中,然后通过注意力层对其进行处理
计算每个头部y的注意力值Zl,然后将所有这些头连接起来,将MHA子层的输出送到第FF子层,MHA和FF子层都使用跳跃连接和BN层,最终,求节点嵌入的平均值,作为问题实例的图形嵌入,将在解码器中多次重复使用
在这里插入图片描述

5、解码器

在这里插入图片描述
在这里插入图片描述
解码器由两部分组成,即车辆选择解码器线和节点选择解码器。
车辆选择解码器输出选择特定车辆的概率分布,主要利用两种嵌入,即车辆特征嵌入(最后一个节点位置和累计行程时间)和路线特征嵌入(m辆车的最大路线集合)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值