这次,我们将介绍这篇论文《A learning-based iterative method for solving vehicle routing problems》来说说运用强化学习具体怎样解决VRP问题。
简介
该文章提出了一个“Learn to Improve” (L2I)
方法,更加高效,并且与OR方法进行了比较更优。该文章重点关注解决组合优化问题,尤其是带容量限制的车辆路径规划问题(CVRP)。其核心思想
就是在元启发式迭代搜索的过程中,加入了RL来帮助更有效的选择算子。
文章的基本思路是:
1、构造初始可行解;
2、强化学习(RL)来选择improvement operator(改进算子)来迭代地优化解决方案;
3、perturbation operator(扰动算子)来避免搜索到局部最优解。
CVRP
CVRP最终的解决方案是一组路线,保证每个客户都仅拜访一次,并且每个路线的总需求少于车辆的容量。该文章是基于原本的启发是方法,首先生成初始解决方案,然后迭代地改进或扰动该解决方案。
算子(Operator)
:是从一种解决方案到另一种解决方案的映射。
模型框架
下图是模型的框架,在保证解决方案可行性的基础下