基于深度强化学习的网约车动态路径规划阅读笔记

xiaochen_hzau

于 2023-01-09 14:17:25 发布

阅读量638

点赞数

文章标签：深度学习智慧城市

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaochen_hzau/article/details/128612294

版权

Dynamic Ride-Hailing Route Planning Based on Deep Reinforcement Learning

本文的主要贡献

提出了一个基于实时供需状态的动态网约车路径规划框架,实现高效的大规模空闲网约车调度,通过包含实时的供需信息来适应动态变化的环境．
设计了一种带有动作采样的 ASＧAC算法来选择可行的动作,增加了动作选择的随机性,从而有效地防止竞争

网约车路径规划问题

网约车、乘客在调度中心下的交互框架

车队管理模块：跟踪网约车的实时位置，以获取下一个时间片网约车供应量
请求预测模块：根据历史的请求时空分布,预测未来的网约车需求分布
深度强化学习调度策略：将供需结合起来,以确定空闲网约车的调度动作,然
后网约车将会朝着调度终点巡航

当网约车被分配给一个请求后,它会首先沿着最短路径前往请求的起点去接乘客,然后驶向请求的终点以完成服务．如果一个请求在其最长等待时间内都没
有被分配给网约车,则该请求将被拒绝．
在这里插入图片描述

Markov决策过程

状态：元组中的元素分别表示网格下标、当前时间片的索引、全局的空闲车辆与等待中的请求数量之差,以及该网格的网约车供应量和乘客需求
在这里插入图片描述
动作：是指将空闲网约车派往某个特定的目的网格gj
奖励：
回合．在该问题设定中,一个回合是从８∶００到２２∶００的繁忙时段．因此,时间t在２２∶００之后的状态为终止状态

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。