一种通过分配能量的列车生态驾驶算法:一种 Q-Learning 方法


摘要

节能列车运行方法是本文的重点,提出了一种基于 Q-Learning 的生态驾驶方法。首先,将生态驾驶问题转化为有限马尔可夫决策过程的基于能量分布的方法(EDBM)的核心思想被表达。其次,提出了Q-Learning方法来确定最优的能量分配策略。具体而言,介绍了两种不同的状态定义,即跳闸时间相关(TT)和能量分布相关(ED)状态定义。最后,在确定性和随机环境中验证了所提出方法的有效性。还说明了与 ED 状态方法相比,TT 状态方法需要大约 20 倍的计算时间,而 TT 状态方法的空间复杂度几乎是恒定的。超参数敏感性分析证明了所提出方法的稳健性。

一、 介绍

铁路系统在当今世界各地的公共交通系统中发挥着重要作用。铁路系统准时、运力大、速度快、开行车次低等优势越来越受到旅客的关注,铁路系统规模快速增长,以满足近年来不断增长的旅客需求。以北京地铁为例,北京政府已将地铁网络从2002年最初的2线31站扩大到2018年的21线370站,对应609公里的轨道 [1]. 此外,作业车距也在不断减少。中心线高峰期2分钟,非高峰期5分钟以内,城市地铁全线10分钟以内。因此,地铁系统的年能耗快速增长,使北京地铁系统成为工业用电的最大消耗者。北京地铁的例子说明了降低铁路系统能源成本的必要性。根据以往的研究,地铁系统的能耗主要用于列车的牵引 [2]. 因此,研究生态驾驶策略以降低牵引能耗具有重要意义。同样的情况也出现在高速铁路系统中。因此,铁路系统的生态驾驶策略是本文的重点。

1.1 . 相关作品
许多学者对列车的生态驾驶策略进行了研究。文献提供的解决方法可分为三大类。

第一类求解方法是使用解析方法求解形式化列车动态特性的微分方程。Ichikawa [3]首先研究了生态驾驶策略。提出了一种将阻力线性化、不考虑坡度和限速的最优列车控制模型。Pontryagin 的最大原理 (PMP) 用于分析节能控制方案,包括最大加速度 (MA)、巡航 (CR)、滑行 © 和最大制动 (MB)。Asnis [4]调整目标函数并采取再生制动考虑到。通过应用 PMP 推导出必要条件,并提出再生制动 (RB) 作为另一种生态驾驶方案。Asnis 还证明了 RB 方案不会出现在非平凡区间中,并且仅与 MB 方案一起使用。Howlett [5]考虑了连续控制和离散控制问题。在连续情况下,PMP被用于寻找最优策略的必要条件,并用于确定最优切换点。在离散情况下,使用 Kuhn-Tucker 方程来确定最佳切换点。最后得出结论,从离散控制模型获得的驾驶策略可以用来近似与连续模型获得的驾驶策略。赫梅利尼茨基 [6]开发了一种基于 PMP 的数值算法来计算最优控制序列,该算法可以使用车载机车计算机进行操作。赫梅利尼茨基还发现,当预定行程时间减少时,巡航速度会提高,这在数学上证明了巡航速度与预定行程时间之间的关系。Liu [7]将 PMP 应用于列车控制问题并确定了最优控制方案。基于Hamilton函数的连续性,设计了一种计算最优状态切换点的数值方法。根据数值实验,该方法可以得到单区间的最优驾驶策略和多区间的最优时刻表。阿拉迪 [8]使用预测优化模型来计算节能驾驶策略。该算法考虑了火车的当前位置和更远的距离,以预测速度曲线和旨在最小化能源消耗的目标函数。然后使用顺序二次规划 (SQP) 来求解模型。Wang [9]考虑了在约束和固定到达时间下列车运行的最优轨迹规划问题。目标函数被认为是能量消耗和乘坐舒适度之间的权衡。然后提出了一种伪谱方法和混合整数线性规划(MILP)方法来寻找最佳驾驶策略。阿尔布雷希特 [10]考虑了各种坡度和速度限制,并在南澳大利亚大学先前研究的基础上提出了一种计算最佳速度剖面的数值方法。证明了最优解的存在性和唯一性。此外,Albrecht 还考虑了再生制动 [11],并证明再生制动可以应用于陡峭的下坡以稳定巡航速度。

另一类解决方法是基于启发式的。Ke [12]制定了一个组合优化问题,并通过蚁群优化(ACO) 算法的 Max-Min Ant System (MMAS) 优化了驾驶策略。与遗传算法和动态规划等其他方法相比,该方法不仅可以获得生态驾驶策略,而且可以减少数百次迭代的计算时间。Sicre [13]提出了一种基于遗传算法(GA)在出现明显延迟时重新计算节能手动驾驶策略的方法。采用遗传算法计算保持速度、响应时间和指令变化位置等模糊参数调整驾驶策略。通过引入模糊参数考虑了与手动驾驶相关的不确定性,可以满足准时性要求。Brenna [14]将 GA 应用于无人驾驶地铁列车能量优化问题。目标函数同时考虑了牵引能量和准时性,并在函数中包含了延迟惩罚因子。多明格斯 [15]设计了一个计算机辅助程序来选择最佳速度曲线。根据列车自动运行(ATO)系统的离散控制特性以及牵引力、滑行点、巡航速度和制动减速度,得到了一组备选的速度曲线。所有替代驾驶策略都根据舒适度和操作条件进行了筛选。帕累托曲线用于确定节能驾驶策略。该方法还通过考虑变电站的能量进行了扩展;因此,可能涉及再生制动 [16]。Keskin [17]将生态驾驶问题视为非线性优化问题,并应用了受自然启发的进化搜索方法。研究中采用了模拟退火、萤火虫和 Big-Bang-Big Crunch 算法。仿真结果表明,所有三种进化方法都产生了具有不同精度和收敛特性的有效且一致的解决方案。Rodríguez [18]获得了火车旅程中到达时间和中间时间的每种组合的一组有效速度曲线。粒子群优化应用算法确定在预定行程时间和通过时间内的最优驾驶策略。结果表明,在到达时间相同但通过时间不同的两种驾驶策略的能耗中,可以观察到 25% 的变化。

随着人工智能技术的快速发展,针对节能列车控制问题也正在实施机器学习算法。Yin [19]提出了一种智能列车运行(ITO)算法,无需使用精确的列车模型信息和离线优化的速度曲线。该算法由两部分组成。基于专家系统的 ITO (ITOE) 算法包含专家规则和启发式专家推理方法。基于强化学习的 ITO (ITOR) 算法旨在通过与环境交互来最小化能耗以探索最优控制策略。仿真结果表明,该算法可以降低约10%的能耗。黄 [20]研究了重载列车在连续长陡下坡铁路线上行驶时的循环制动,提出了一种基于神经网络的行驶曲线生成方法。各种非线性神经元相互连接,用于信息处理和传输。该网络通过实际驾驶数据进行训练。Zhang [21]从将数据挖掘方法与专家知识相结合的新视角提出了数据驱动的列车运行(DTO)模型。在列车运行专家系统中采用了k-最近邻(KNN)和集成学习方法。此外,通过启发式列车停车算法 (HPA) 改进了 DTO 模型,以确保停车准确性。朱 [22]研究了基于通信的列控(CBTC)系统中列控性能的联合优化,重点关注能源消耗。优化过程是使用深度强化学习方法制定的,并使用两个深度 Q 网络来获得最佳切换和列车控制策略。定义了一个线性二次成本函数来衡量 CBTC 的性能。Huang [23]建立了一个序列卷积神经网络(SCNN),以获得由人类专家驾驶员提供的手动驾驶数据训练的最佳驾驶策略。仿真结果表明,SCNN 获得的驾驶策略与人类驾驶员获得的驾驶策略相似,但平均节省了约 10% 的牵引能耗。

一些经典的控制算法也可以应用于生态驾驶问题,以实现高质量的实时控制。Ji [24]将自适应迭代学习控制(AILC)方法应用于ATO系统。考虑了时变阻力系数以及控制器的速度延迟,并引入了Lyapunov-Krasovskii函数来分析所提出的时变因素。仿真结果表明,AILC方法可以保证列车速度收敛到所需的轮廓。此外,ILC 方法可以与基于梯度的闭环控制系统的迭代反馈调谐 (IFT) 方法相结合,以提高控制系统的性能 [25]。曹开发了一种模糊预测控制器 [26] ,为列车运行提供高质量的控制条件,以应对高速列车的变化因素。仿真结果表明,与PID控制器相比,模糊预测控制器具有更好的控制效果,可以提高列车运行的安全性。此外,模糊控制器还可以与分数阶控制器相结合和进化校准以实现更好的控制性能 [27], [28]。

节能控制问题也可以与列车时刻表优化相结合,同时获得最优的速度曲线和时刻表。Scheepmaker [29]使用开发的 Energie Zuinig Rijden (EZR) 模型和 PMP 来确定单个列车行程的联合最佳巡航速度和滑行点。考虑到了运行期间所需的时间表稳健性和准时性,以及节能运行的可能性。然后应用微分方程和搜索算法来寻找最佳驾驶策略和行程时间的最佳分布。卜 [30]设计了一种将节能驾驶策略与列车调度问题相结合的方法。调整了列车分段行驶时间、列车在站停留时间和车距,寻找节能全局最优解。苏 [31]通过联合优化列车时刻表和行驶策略,提出了两级一体化列车运行方法。引入动态规划方法计算节能驾驶策略。在时刻表层面,基于动态规划方法的结果,采用模拟退火算法对列车的行程时间和车头时距进行优化。

二、动机和贡献

据我们所知,传统算法旨在获得具有预定行程时间约束的生态驾驶策略。首先获得最优的驾驶状态,并调整相应的切换点和巡航速度以满足预定行程时间的要求。然而,最佳行程时间可以由能耗唯一确定。更容易直接从牵引能量的角度获得最优的驾驶策略;然而,很少有研究人员关注这种方法。此外,在以前的方法中,最优列车控制模型被视为核心组件,可以被认为是基于模型的方法。然而,许多因素导致模型的复杂性,例如,运行阻力和隧道和弯道阻力使得建立最优控制模型受到限制甚至不可能。因此,传统的基于模型的方法不能应用于复杂的环境。同时,即使能够构建出控制模型,求解的准确性也与控制模型的质量密切相关。例如,在 Ichikawa 的研究中 [3],不考虑坡度和限速。运行阻力也被简化为速度的线性函数。因此,它只能应用于水平轨道,不能推广到线路条件复杂的环境中。由于运行阻力的误差,列车的速度无法准确计算。即使可以构建一个完美的模型,使用基于模型的方法确定最佳驾驶策略也很复杂。因此,首选无模型方法,例如强化学习方法。与其他新开发的控制方法相比,例如基于内点法 (IPM) 的同步方法 [32]和基于群体智能的算法 [33],强化学习方法可以省略复杂的建模过程,直接通过真实或模拟驾驶体验确定最优解。此外,强化学习可以通过探索策略实现探索和利用之间的权衡,更有效地达到全局最优。

本文的主要贡献总结如下。首先,提出了一种数据驱动的方法来确定最优的驾驶策略,并且可以省略复杂的建模过程。优化过程可以简化并且解决方案的质量不受控制模型精度的限制。从另一个角度来看,可以更好地利用历史运营数据来优化驾驶策略。其次,应用Q-Learning方法来确定最佳驾驶策略。结合基于能量分布的方法的核心思想,该方法可以从能耗的角度直接确定驾驶策略,提出了两种状态定义。首先,提出了行程时间相关状态定义(TT-state)。将行程时间离散化以构建 Q-table,并且 Q-Learning 方法可以应用于连续状态空间。此外,为了加速所提出方法的训练过程,提出了能量分布相关状态定义(ED-state)。调整价值函数的存储方式,构建状态树来存储状态集和对应的价值函数。因此,Q-Learning 方法可以推广到具有高维状态空间的优化问题。最后,在确定性环境和随机环境下验证了所提出方法的有效性和鲁棒性,其中假定运行阻力系数为随机变量。仿真结果表明,即使运行阻力系数在一定范围内变化,所提方法也具有良好的节能性能。因此,所提出的方法对确定性和随机环境都具有鲁棒性。此外,对所提出方法中的关键超参数(例如学习率和折扣因子)进行了敏感性分析,并进一步证明了鲁棒性。

论文的结构

本文的其余部分安排如下。第 2节介绍了最优列车控制模型和问题的重新表述。第3节提出了生态驾驶问题的 Q-Learning 方法以及最优列车控制问题中状态、动作和奖励的定义 。第四节基于北京地铁亦庄线的运营数据进行了一些案例研究 。全文的摘要在第 5节中提供。

在本文中,提出了一种基于 Q-Learning 的生态驾驶策略计算方法。生态驾驶问题被重新表述为一个逆问题,即将最少的能量单位分配到部分以达到预定的行程时间。并应用 Q-Learning 方法来获得最优的能量分配策略。提出了生态驾驶问题中状态、动作和奖励的定义,并具体说明了两种不同的状态定义方法,即TT-state和ED-state。仿真结果表明,该方法可以得到最优的驾驶策略。此外,研究了超参数在两种状态定义情况下的影响。更大的学习率可以在两种状态定义中加速训练过程。然而,连续状态之间的相关性在两个状态定义中是不同的,因此探索参数的影响和贴现率也不同。在 TT 状态 Q-Learning 方法中,一个较小的可以加速训练过程。相比之下,较小的将减慢 ED 状态 Q-Learning 方法中的训练过程。一个更大的会鼓励agent做更多的探索。因此,在 TT-state Q-Learning 方法中,训练过程可以由于探索而加速。然而,在 ED-state Q-Learning 方法中,这种探索会扩大状态树的规模,并且会减慢训练过程。能量单位的影响也被讨论。一个更小的将带来更准确的解决方案和更长的计算时间。

总之,所提出的基于 Q-Learning 的方法可以在没有复杂控制模型的情况下获得全局最优值,并且具有良好的节能性能。在未来的工作中可以研究以下几个方面来提高该方法的性能。首先,所提出的方法可以扩展到连续状态和动作空间,以获得更准确的解决方案。其次,提出的方法可以与ATO系统相结合,设计列车的在线控制器。最后,可以涉及更多的优化对象,例如准时性和乘坐舒适性,以提高控制性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

资源存储库

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值