基于深度强化学习的网约车动态路径规划 阅读笔记

Dynamic Ride-Hailing Route Planning Based on Deep Reinforcement Learning

本文的主要贡献

  1. 提出了一个基于实时供需状态的动态网约车路径规 划 框 架,实 现 高 效 的 大 规 模 空 闲 网 约 车调度,通过包含实时的供需信息来适应动态变化的环境.
  2. 设计了一种带有动作采样的 ASGAC算法来选择可行的动作,增加了动作选择的随机性,从而有效地防止竞争

网约车路径规划问题

网约车、乘客在调度中心下的交互框架

车队管理模块:跟踪网约车的实时位置,以获取下一个时间片网约车供应量
请求预测模块:根据历史的请求时空分布,预测未来的网约车需求分布
深度强化学习调度策略:将供需结合起来,以确定空闲网约车的调度动作,然
后网约车将会朝着调度终点巡航

当网约车被分配给一个请求后,它会首先沿着最短路径前往请求的起点去接乘客,然后驶向请求的终点以完成服务.如果一个请求在其最长等待时间内都没
有被分配给网约车,则该请求将被拒绝.
在这里插入图片描述

Markov决策过程

状态:元组中的元素分别表示网格下标、当前时间片的索引、全局的空闲车辆与等待中的请求数量之差,以及该网格的网约车供应量和乘客需求
在这里插入图片描述
动作:是指将空闲网约车派往某个特定的目的网格gj
奖励:在这里插入图片描述
回合.在该问题设定中,一个回合是从8∶00到22∶00的繁忙时段.因此,时间t在22∶00之后的状态为终止状态

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值