韩国研究人员开发交通信号控制新算法

c2a7926500fc79f03409f8062d6ce197.jpeg

由Keemin Sohn教授领导的韩国中央大学的研究小组提出了一种用于交通信号控制的元RL模型。具体来说,该团队开发了一个扩展的深度Q网络(EDQN)结合的基于上下文的元RL模型,用于交通信号控制。

传统的交通信号控制器通常无法处理交通拥堵。现有系统依赖于基于理论或规则的控制器,该控制器负责根据交通状况改变交通信号灯。目标是减少正常交通条件下的车辆延误,并在拥堵期间最大限度地提高车辆吞吐量。然而,传统的交通信号控制器无法实现这种不断变化的目标,而人类控制者只能管理几个十字路口。

强化学习(RL)可以潜在地解决这个问题,但是,强化学习通常在静止的环境中工作,交通环境不是静止的。

“现有的研究已经设计了基于交叉路口几何形状、交通信号相位或交通状况的元 RL 算法,”Sohn 解释道。“本研究根据拥堵水平处理信号控制的非平稳方面。元RL在检测交通状态、对交通状况进行分类和分配信号相位方面自主工作。

该模型的工作原理如下。它通过使用指示整体环境状况的潜在变量来确定交通状况 - 饱和或非饱和。基于流量,该模型要么最大化吞吐量,要么最小化延迟,类似于人工控制器。它通过实施交通信号阶段(操作)来实现。与智能学习代理一样,该行为通过提供“奖励”来控制。在这里,奖励函数设置为 +1 或 -1,分别对应于相对于前一个间隔处理流量的更好或更差的性能。此外,EDQN充当解码器,共同控制多个十字路口的交通信号。

1c44b3ac0a46fb22405803fcabd9a761.jpeg

根据其理论发展,研究人员使用商业交通模拟器Vissim v21.0训练并测试了他们的元RL算法,以模拟现实世界的交通状况。此外,首尔西南部由15个交叉路口组成的交通网络被选为现实世界的试验台。在元训练之后,模型可以在元测试期间适应新任务,而无需调整其参数。

仿真实验表明,所提模型可以在没有任何明确交通信息的情况下切换控制任务(通过转换)。它还可以根据交通状况的饱和度来区分奖励。此外,基于EDQN的元RL模型优于现有的交通信号控制算法,可以扩展到具有不同转换和奖励的任务。

尽管如此,研究人员指出,需要一种更精确的算法来考虑交叉点之间的不同饱和度。

“现有的研究已经将强化学习用于具有单一固定目标的交通信号控制,”Sohn说。“相比之下,这项工作设计了一个控制器,可以根据最新的交通状况自主选择最佳目标。如果交通信号控制机构采用该框架,可以产生前所未有的旅行效益。

BY 劳伦·戴森

以下为Keemin Sohn教授论文的部分内容,点击阅读原文可下载论文。

2d383fd7f2f6481e2719e62f33d43f9f.jpeg

bef4af187a07ef65a2424770b42d6b59.jpeg

51984363b10761f4e70e4a97654f7a2d.jpeg

670d33b69b5050647d0d0b6499c45d23.jpeg

db9fb2ea987b57cbe208162cff205ba5.jpeg

5e03d48964954078258dc2f5f702022f.jpeg

474ed2185e06dea7ee1a9e002e67c1e1.jpeg

92edfaa2faf198076686ce2041851d53.jpeg

资料已经上传至「智能交通技术」知识星球,加入星球后可下载。

欢迎加入智能交通技术群!

联系方式:微信号18515441838

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智能交通技术

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值