背景
综述
特征提取
深度强化学习
结果
- 背景
现在出租车系统遇到的三个问题,打车的人特别多,但是与大量的需求相比出租车的数量特别有限,而且在上一位乘客下车后,出租车还需要大量时间来寻找下一位乘客,我们现在要解决的问题就是提高出租车的运输效率,为空置出租车推荐巡航路线。图一是动态出租车路线推荐图。具体的如(a)所示我们为taxt-1推荐路线,先把路段定义为序列(r1,r2,r3,r4),使得通过推荐的路线,taxt-1可以快速找到新乘客。出租车路径推荐有很多好处,给司机带来更多的收入,减少乘客等待时间。我们先遇到两个挑战,第一,出租车路线推荐与多个实时时空特征相关联,这些实时时空特征既没有被全面考虑也没有被公式化。第二,没有标签数据,给定的所有候选路线的特征,没有标记的最优推荐决策。
在这项工作中,我们考虑和定制以下内部和外部特征作为我们的实时时空特征,我们为什么要考虑实时特性,是因为动态的推荐会显著影响系统的状态,对于图一(b)中的例子,路段e3,e4,e5,e6( 红色路段),在历史上具有很高的拾取概率,所以就会有大量出租车去这些路段寻找乘客,当我们根据历史拾取概率进行推荐时,司机们就有可能找不到乘客,所以我们要考虑实时性的特点。
对于实时性来说,我们一般考虑内部特征和外部特征作为我们的实时时空特征,内部特征为对于每个可能的推荐路线,实时内部特征是与路线上空闲出租车搭载乘客的容易程度相关的特征,外部特征为一条路线的实时外部特征与未来空闲出租车接载乘客的难易程度相关的特征。如图一©所示,工作日早上时间8点,空闲出租车位于商业区,灰色圆圈表示候选路线的最大长度,在这种情况下,对于(r5,r6)来说,他们的候选路线上面都没有乘客,如果只考虑实时内部特征,两个路线没有区别,但是r6却优于r5,因为r6通往有很多乘客的住宅区,而r5通往没有乘客的商业区,所以,我们不仅要考虑内部特征也要考虑外部特征。
2. 综述
我们引入三个定义,
图二是出租车路线推荐的总体框架,对于每一个出租车的请求有不同的候选生成路线(r1…rq),经过内部,外部特征提取得到新的路线,然后在根据深度策略网络得到每一个路线的得分,根据得分最高的路线就为要推荐的路线。其中得分的计算公式如下:
3. 特征提取
前面我们说到,路线r的外部特征反映空闲出租车到达推荐路线r的终点后,在搭载乘客的容易程度,我们把它放入网格中,得到图四k=0,1,2,的周围网格。图五表示k=1阶周围网格的路线r的外部特征。为了能更好的融合内部特征和外部特征,我们提出了深度策略网络作为策略网络。
4. 深度强化学习
4. 结果分析
下面是论文,大家有兴趣的可以去读读论文。有建议和意见欢迎评论。
A S J , A Z W , B T L A , et al. Spatio-temporal feature fusion for dynamic taxi route recommendation via deep reinforcement learning[J]. Knowledge-Based Systems, 2020, 205.