不确定性环境下的自动驾驶汽车行为决策方法

在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境下的自动驾驶汽车行为决策方法,为消除不确定性的影响,将行为决策过程转化为部分可观察马尔可夫决策过程(POMDP )。同时为解决 POMDP 模型计算复杂度过高的问题,首次将复杂网络理论应用于自动驾驶汽车周围微观的驾驶环境,对自动驾驶汽车驾驶环境进行动态建模,实现了车辆节点间交互关系的有效刻画,并对重要车辆节点进行科学筛选,用于指导自车的行为决策,实现对关键车辆节点的精准识别和决策空间的剪枝。在仿真环境中验证了所提方法的有效性,实验结果表明,与现有最先进的行为决策方法相比,所提出的方法拥有更高的计算效率,且拥有更好的性能和灵活性。
关键词:自动驾驶汽车;行为决策;部分可观察马尔可夫决策过程;复杂网络

前言

近年来,自动驾驶和高级辅助驾驶技术取得了重大进展,尤其深度学习和其他人工智能技术的快速发展,自动驾驶汽车的感知能力有了显著提升。但在实际驾驶环境中,由于目标识别、检测和跟踪过程均存在误差或噪声,要获得“完美”的感知数据几乎是不可能的。更为重要的是,实际交通场景下,自动驾驶汽车与周边多交通主体行为之间存在很强的关联交互影响,导致难以准确预测周边多目标的行为意图和未来轨迹。如何在高度交互的复杂驾驶环境当中,考虑感知和预测等存在的不确定性因素影响,建立一套兼顾效率和性能的行为决策系统,是当前自动驾驶汽车急需解决的主要问题之一。
近年来,许多学者已经对自动驾驶汽车的行为决策方法做了大量研究 。基于规则的方法具有结构简单、易于实现等优点,因此在早期的研究工作或现阶段低级别的自动驾驶汽车中十分流行,此类方法 根据驾驶任务或驾驶状态,在人工制定的规则或知识库中选择适当的行为决策策略。然而随着自动驾驶汽车须解决的驾驶环境越复杂,且感知及预测模块输入存在多模态与不确定性等特点,用有限的规则来涵盖包含无限可能的真实驾驶环境,往往会迫使自动驾驶汽车采用十分保守的行为决策策略。
近些年随着深度神经网络( DNN )和强化学习(RL )的兴起,许多学者尝试将其与自动驾驶汽车的行为决策方法相结合。Chen 利用道路状况、车距、车道标记距离等信息作为感知输入训练深度神经网络,利用训练好的神经网络对驾驶行为进行评估,从而生成决策策略。Desjardins 提出了一种基于强化学习的自适应巡航控制系统。然而实际的驾驶环境往往具有很高维度,只依靠强化学习很难对复杂驾驶环境进行处理,因此将深度学习应对高维输入的能力与强化学习相结合的深度强化学习(DRL )的方法成为了研究热点,很多学者   都尝试使用相似的方法对模型进行训练,生成基于 DRL 的自动驾驶决策系统,相比于经典的行为决策方法,这些方法面对高维不确定性的驾驶环境时,通常有着更好的表现。此外,一些学者尝试在 DRL当中融入基于规则的方法,以充分发挥两种方法的优点,Fu等
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

电气_空空

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值