MTD-GPT: 一个在无信号的交叉路口执行自动驾驶的多任务决策GPT模型

23年7月份来自同济大学和清华大学的工作的论文“MTD-GPT: A Multi-Task Decision-Making GPT Model for Autonomous Driving at Unsignalized Intersections“。该方法是利用了GPT的思路,训练一个token化的NLP模型。

自动驾驶技术有望改变交通系统现状。然而,在复杂场景(例如无信号的交叉路口)中实现安全准确的多任务决策仍然是自动驾驶汽车面临的挑战。本文通过开发一个多任务决策生成式预训练Transformer(MTD-GPT)模型提出了一种解决此问题的方法。利用强化学习 (RL) 的固有优势和生成式预训练Transformer (GPT) 的复杂序列建模功能,MTD-GPT 模型旨在同时管理多个驾驶任务,例如左转、直行驾驶和无信号交叉路口的右转。最初训练单任务 RL 专家模型,在环境中对专家数据进行采样,然后利用混合多任务数据集进行离线 GPT 训练。该方法将自动驾驶中的多任务决策问题抽象为序列建模任务。MTD-GPT 模型在多个决策任务中经过训练和评估,表现出优于或可与SOTA单任务决策模型相媲美的性能。

考虑无信号交叉路口自动驾驶的多任务决策问题。具体来说,定义一个单车道十字形无信号交叉路口。如图所示,几辆具有不同驾驶风格和意图的人类驾驶车辆(HV)从不同的方向和位置随机出现。与HV交互后,自动驾驶车(AV)需要完成左转、直行或右转的任务。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tBDTkJwu-1721239588319)(https://i-blog.csdnimg.cn/direct/89a2a981f10b47b68edff52f970e7cf9.png)]

该问题由RL专家和MTD-GPT模型确定的AV动作通过闭环PID控制器转换为低层的转向和加速信号。将交通环境中AV的多任务决策过程描述为多任务部分可观察马尔可夫决策过程(POMDP),可以用M = (S, A, O, P, {ri})表示,其中S是状态空间,A 是动作空间,O是观察空间,P:S × A → R 是转移函数,{ri}是具有不同任务的有限奖励函数集合,ri表示任务i的奖励函数。离线 GPT 模型的目标是找到一个策略 πgpt(a|s),最大化所有任务的预期回报。

如图 所示,MTD-GPT 的训练流水线由三个关键组件组成:专家数据收集、GPT 训练和 GPT 评估。在专家数据收集阶段,使用近策略优化(PPO)算法和注意机制训练多个专家模型,实现单任务决策的性能。随后,在模拟环境中,记录专家的动作和生成多任务专家演示数据集。在 GPT 训练阶段,多任务专家数据集可作为 GPT 学习的指南。首先,将自动驾驶的多任务决策问题作为序列建模和预测任务。然后,将专家数据的“状态-动作-奖励”元组转换为类似于自然语言处理 (NLP) 任务的token格式,匹配 GPT 模型的输入格式 [10]。在 GPT 评估阶段,将训练好的 MTD-GPT 在各种任务场景中进行评估,将 GPT 的决策数据视为未来 GPT 训练的准专家数据。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1rKg4jC7-1721239588324)(https://i-blog.csdnimg.cn/direct/1e948a1e9b4f4d8daff109cb6591313e.png)]

专家数据收集的整个过程如图所示。最初,定义了三种不同的自动驾驶汽车决策任务:左转、直行和右转。随后,使用PPO-Attention算法训练三名RL专家。最终,在指定的模拟环境中模拟每个专家的行为,将行动和奖励数据记录并编译到离线多任务数据集中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ieb1geRz-1721239588325)(https://i-blog.csdnimg.cn/direct/d3b0d3c631e1408293a145b4171343f3.png)]

带注意模块的策略网络如图所示。对于每个RL专家i,相应的观测Oi和状态Fi最初通过多层感知器(MLP)编码器嵌入。在这种初始转换之后,嵌入的数据在注意层内进行进一步处理,确定优先级并捕获特征。最后,以注意为中心的数据由MLP解码器解码,将处理后的信息转换为可操作的输出。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hs4PZbqy-1721239588326)(https://i-blog.csdnimg.cn/direct/9bb587d930494bc8884910efa8545a19.png)]

按照论文(“Decision transformer: Reinforcement learning via sequence modeling”, NIPS 2021)的方法,GPT 的训练过程被视为序列建模问题,并将以自回归方式进行训练。如图所示,MTD-GPT模型利用类似于自然语言处理(NLP)技术的方法对自动驾驶中的决策任务进行建模和预测。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-geq3sqXq-1721239588326)(https://i-blog.csdnimg.cn/direct/da0eb090fa2d4f018f9d70573410467b.png)]

MTD-GPT的训练算法总结如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pAWGk5gQ-1721239588327)(https://i-blog.csdnimg.cn/direct/b32fb461abc64a789662c5a81d271e13.png)]

  • 21
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值