概述
本文主要使提出了一种用端到端的强化学习方法来解决VRP问题——指针网络的简化版可以有效的处理系统包含静态、动态两种元素。【由一个带有注意力机制的解码器构成,每个时间步,静态元素的嵌入RNN解码器的输入,RNN的输出和动态元素嵌入被送入注意力机制,形成一个可行的目的地,供选择。】
- 优势:在有容量限制的VRP问题中,本文的方法比传统的启发式,甚至谷歌的OR-tools效果更好。
介绍
- VRP:有一定容量的车,在城市中送货,在货物送完之前,必须回到固定起点(车厂)装货。
- 目标:优化一条线路,最大化总里程或最小化平均服务时间
- 现状:即使只有几百服务点的问题,也很难计算。
- ==为什么不用指针网络?==VRP问题一旦访问一个节点之后,其实际需求就会变为0.
背景知识
- sequence to seqence
- attention mechanism
- neural combinatorial optimization
方法
- 输入: X = { x i , i = 1..... M } X=\{x^i,i=1.....M\} X={ xi,i=1.....M}
- 条件: 允许输入的某些元素,在解码过程中发生变化。如车辆访问节点时,剩下节点的需求随时间变化;新客户的随自生到来的时间,改变需求。
- 每个输入可以表示成 { x i t = ( s i , d t i , t = 0 , 1.... ) } \{x_i^t=(s^i,d_t^i,t=0,1....)\}