“Learn to Improve”(L2I):RL运用至VRP的方法介绍

“Learn to Improve”(L2I):RL运用至VRP的方法介绍


这次,我们将介绍这篇论文《A learning-based iterative method for solving vehicle routing problems》来说说运用强化学习具体怎样解决VRP问题。

简介

该文章提出了一个“Learn to Improve” (L2I)方法,更加高效,并且与OR方法进行了比较更优。该文章重点关注解决组合优化问题,尤其是带容量限制的车辆路径规划问题(CVRP)。其核心思想就是在元启发式迭代搜索的过程中,加入了RL来帮助更有效的选择算子。
文章的基本思路是:
1、构造初始可行解;
2、强化学习(RL)来选择improvement operator(改进算子)来迭代地优化解决方案;
3、perturbation operator(扰动算子)来避免搜索到局部最优解。

CVRP

CVRP最终的解决方案是一组路线,保证每个客户都仅拜访一次,并且每个路线的总需求少于车辆的容量。该文章是基于原本的启发是方法,首先生成初始解决方案,然后迭代地改进或扰动该解决方案。
算子(Operator):是从一种解决方案到另一种解决方案的映射。
在这里插入图片描述

模型框架

下图是模型的框架,在保证解决方案可行性的基础下࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值