简述强化学习和智能交通的相遇



前言

本人是智能交通的一名硕士研究生,希望将强化学习应用到交通优化,这里介绍一篇经典的强化学习应用到交通上的文章,大家一起学习交流。

提示:以下是本篇文章正文内容

Q-learning approach to coordinated optimization of passenger inflow control with train skip-stopping on a urban rail transit line

Q-learning 应该是强化学习中最经典的算法。
1.理解环境(model based)
2.基于价值(value-based)
3.单步更新(temporal- difference update)
4. 离线学习(off - policy)

abstract

In the case of an over-crowded urban rail transit (URT) line, a large number of passengers may be left stranded and daily timetable may become infeasible. This paper proposes a coordinated optimization scheme for a URT line, which combines both the coordinated passenger inflow control with train rescheduling strategies. With the aim of minimizing the penalty value of passengers being stranded along the whole line, the coordinated passenger inflow control helps relieve demand pressure and ensure safety at over-crowded URT stations while thetrain rescheduling of skip-stopping helps to balance the utilization of train capacity. A novel Q-learning based approach to this combination optimization problem is developed. Simulation experiments are carried out on areal-world URT line in Shanghai. Basic principles of Q-learning are presented, which consist of the environment and its states, learning agents and their respective actions, and rewards. The results show that the coordinated optimization scheme solved by the Q-learning approach is effective in relieving the passenger congestion on the URT line. The Q-learning approach can offer accurate scheme to deal with the problem of passenger congestion and train operation on a URT line

在城市轨道交通线路过于拥挤的情况下,可能会导致大量乘客滞留,使日常时刻表变得不可行。提出了将客流协调控制与列车重调度策略相结合的轨道交通线路协调优化方案。为减低全线滞留旅客的惩罚金,协调的客流控制有助缓解需求压力,并确保人满为患的轨道交通车站的人流安全;而重新安排列车的跳车安排,则有助平衡列车运力的利用。提出了一种新的基于q学习的组合优化问题求解方法。在上海某轨道交通线路上进行了仿真实验。提出了Q-learning的基本原理,包括环境及其状态、学习主体及其各自的行为和奖励。结果表明,Q-learning方法求解的协同优化方案对缓解轨道交通线路的乘客拥堵是有效的。Q-learning方法可以为处理轨道交通线路上的乘客拥挤和列车运行问题提供准确的方案
提示:文中的skip-stopping是一种跳停的办法,【1】通俗的说指在高峰期地铁不会在每一站都停车,而是根据策略选择性停车来保证客流平衡。
不只是考量效率,在拥堵的路段和时间,要保证顾客满意度,相对公平,不能让有些人等太久上不了车,人流量聚集,会导致处罚金,这也是一种目标函数。在APP或者屏幕上发布跳停信息,而且还在个站点减速保证列车之间的间隔。

这里同时和另一篇文章进行对比
Equity-oriented skip-stopping schedule optimization in an oversaturated urban rail transit network
这篇文章也同样解决的是地铁线路类似高峰期的乘客滞留问题,提出的是一种传统的 拉格朗日松弛 进行解决,同时和求解器进行比较。

introduction

简单地说,在中国,任何城市轨道交通系统如果没有实施客流控制,往往会导致大量乘客在高峰时段滞留在站台上。当站台候车的乘客密度超过临界密度时,可能会发生乘客拥挤和/或恐慌性踩踏事故。拥挤对乘客和运营机构来说都是一个潜在的威胁(如缺乏安全性、舒适度低、延误和效率低下),也可能是一个潜在的威胁(如服务不可靠和容量利用率不均衡)。因此,防止或减少拥挤对于提高系统的安全性和可靠性是极其重要的。尤其是现在的疫情影响,高密度的聚集是非常有威胁的,是个非常需要解决的问题。

客流控制作为缓解车站拥堵的短期有效策略,已在北京、上海、广州等中国主要城市的城市轨道交通系统的日常运营中实施。这些策略包括在车站外设置栏杆、关闭部分自动售票机和关闭部分入口等。然而,客流控制策略在实际应用中对缓解整个地铁线路拥堵的作用很小。
在以往的许多研究中,客流控制策略通常与列车重调度和客流协调控制分开实施,缺乏对整体性能和动态性能的考虑。由于人们对安全与效率的关注日益增加,为了保证旅客的安全,提高列车运力的效率,需要考虑将客流管控与列车重调度相结合的协调优化方案。车站间的客流协调控制策略是为了调整客流流量,平衡滞留在过度拥挤的车站的旅客分布,以保证所有旅客的安全。采用跳停的列车重新调度策略,可以有效地减少全线滞留旅客的数量和次数。
在高负荷地铁线路中,单站发生拥堵会影响下游站的客运效率。因此,任何协调的优化行动不仅会影响当前的性能,而且还会影响后期的性能(即后续状态的奖励)。因此,我们迫切需要一种有效的方法,既能使长期回报最大化,又能在短时间内做出动态决策。Qlearning作为一种解决具有大或连续状态和行动空间的复杂序列决策问题的强大方法(Yin et al., 2016a, 2016b),可以应用于本文的协调优化问题。

首先,对客流协调控制条件下的列车跳停重调度策略进行了综合分析。摘要提出了一种基于客流协调控制的超拥挤轨道交通线路列车改期方法,该方法采用优化的跳停模式。需要注意的是,本文提出的方法是建立在一个优化模型的基础上的,该模型的目的是使地铁沿线乘客滞留的惩罚值最小。•其次,开发Q-learning方法求解非线性优化模型。提出了环境及其状态、学习主体及其各自的行为以及奖励的基本原则。为解决现实地铁沿线的乘客拥堵和列车重新调度问题提供了一种准确的解决方案。

问题描述

当有限的运输能力不能满足出行需求时,尤其是在高峰时段,城市轨道交通会发生乘客拥堵。因此,在站台等候的乘客密度将超过其临界值。随着滞留在站台2次以上的乘客数量的增加,将导致候车时间延长,并存在严重的隐患。因此,车站应采取客流控制措施,以降低高峰时段的安全风险。在入流控制下,根据旅客需求对列车重新调度进行优化。列车运力与旅客需求的匹配程度对客流控制方案有很大影响。为确保安全,上海地铁高峰时段的最小发车间隔为2分5秒。在服务频率如此之高的情况下,进一步提高运力是不可行的,控制客流是保证安全、缓解平台压力的短期有效选择。为缓解旅客出行需求压力,当务之急是尽快疏散滞留旅客。轨道交通线路的列车重新调度可采用不同的停车方式,以提高列车的匹配度。合理的列车跳停策略有助于在列车过度拥挤的情况下实现列车有效运力的平衡和快速载客。对提高地铁运营系统的安全性和可靠性也有积极的作用。综上所述,协调控制客流与列车跳停可以极大地促进列车运力利用的平衡,提高服务安全性。

参考文献

【1】Shang P, Li R, Liu Z, et al. Equity-oriented skip-stopping schedule optimization in an oversaturated urban rail transit network[J]. Transportation Research Part C: Emerging Technologies, 2018, 89: 321-343.

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值