MTD-GPT: 一个在无信号的交叉路口执行自动驾驶的多任务决策GPT模型

硅谷秋水

已于 2024-07-30 21:13:00 修改

阅读量957

点赞数 21

分类专栏：自动驾驶大模型文章标签： gpt 自动驾驶人工智能语言模型

于 2024-07-18 02:06:37 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/140409431

版权

大模型同时被 2 个专栏收录

403 篇文章 3 订阅

订阅专栏

自动驾驶

86 篇文章 1 订阅

订阅专栏

23年7月份来自同济大学和清华大学的工作的论文“MTD-GPT: A Multi-Task Decision-Making GPT Model for Autonomous Driving at Unsignalized Intersections“。该方法是利用了GPT的思路，训练一个token化的NLP模型。

自动驾驶技术有望改变交通系统现状。然而，在复杂场景（例如无信号的交叉路口）中实现安全准确的多任务决策仍然是自动驾驶汽车面临的挑战。本文通过开发一个多任务决策生成式预训练Transformer（MTD-GPT）模型提出了一种解决此问题的方法。利用强化学习（RL）的固有优势和生成式预训练Transformer （GPT）的复杂序列建模功能，MTD-GPT 模型旨在同时管理多个驾驶任务，例如左转、直行驾驶和无信号交叉路口的右转。最初训练单任务 RL 专家模型，在环境中对专家数据进行采样，然后利用混合多任务数据集进行离线 GPT 训练。该方法将自动驾驶中的多任务决策问题抽象为序列建模任务。MTD-GPT 模型在多个决策任务中经过训练和评估，表现出优于或可与SOTA单任务决策模型相媲美的性能。

考虑无信号交叉路口自动驾驶的多任务决策问题。具体来说，定义一个单车道十字形无信号交叉路口。如图所示，几辆具有不同驾驶风格和意图的人类驾驶车辆（HV）从不同的方向和位置随机出现。与HV交互后，自动驾驶车（AV）需要完成左转、直行或右转的任务。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tBDTkJwu-1721239588319)(https://i-blog.csdnimg.cn/direct/89a2a981f10b47b68edff52f970e7cf9.png)]

该问题由RL专家和MTD-GPT模型确定的AV动作通过闭环PID控制器转换为低层的转向和加速信号。将交通环境中AV的多任务决策过程描述为多任务部分可观察马尔可夫决策过程（POMDP），可以用M = （S， A， O， P， {ri}）表示，其中S是状态空间，A 是动作空间，O是观察空间，P：S × A → R 是转移函数，{ri}是具有不同任务的有限奖励函数集合，ri表示任务i的奖励函数。离线 GPT 模型的目标是找到一个策略 πgpt（a|s），最大化所有任务的预期回报。

如图所示，MTD-GPT 的训练流水线由三个关键组件组成：专家数据收集、GPT 训练和 GPT 评估。在专家数据收集阶段，使用近策略优化（PPO）算法和注意机制训练多个专家模型，实现单任务决策的性能。随后，在模拟环境中，记录专家的动作和生成多任务专家演示数据集。在 GPT 训练阶段，多任务专家数据集可作为 GPT 学习的指南。首先，将自动驾驶的多任务决策问题作为序列建模和预测任务。然后，将专家数据的“状态-动作-奖励”元组转换为类似于自然语言处理（NLP）任务的token格式，匹配 GPT 模型的输入格式 [10]。在 GPT 评估阶段，将训练好的 MTD-GPT 在各种任务场景中进行评估，将 GPT 的决策数据视为未来 GPT 训练的准专家数据。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1rKg4jC7-1721239588324)(https://i-blog.csdnimg.cn/direct/1e948a1e9b4f4d8daff109cb6591313e.png)]

专家数据收集的整个过程如图所示。最初，定义了三种不同的自动驾驶汽车决策任务：左转、直行和右转。随后，使用PPO-Attention算法训练三名RL专家。最终，在指定的模拟环境中模拟每个专家的行为，将行动和奖励数据记录并编译到离线多任务数据集中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ieb1geRz-1721239588325)(https://i-blog.csdnimg.cn/direct/d3b0d3c631e1408293a145b4171343f3.png)]

带注意模块的策略网络如图所示。对于每个RL专家i，相应的观测Oi和状态Fi最初通过多层感知器（MLP）编码器嵌入。在这种初始转换之后，嵌入的数据在注意层内进行进一步处理，确定优先级并捕获特征。最后，以注意为中心的数据由MLP解码器解码，将处理后的信息转换为可操作的输出。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hs4PZbqy-1721239588326)(https://i-blog.csdnimg.cn/direct/9bb587d930494bc8884910efa8545a19.png)]

按照论文（“Decision transformer: Reinforcement learning via sequence modeling”, NIPS 2021）的方法，GPT 的训练过程被视为序列建模问题，并将以自回归方式进行训练。如图所示，MTD-GPT模型利用类似于自然语言处理（NLP）技术的方法对自动驾驶中的决策任务进行建模和预测。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-geq3sqXq-1721239588326)(https://i-blog.csdnimg.cn/direct/da0eb090fa2d4f018f9d70573410467b.png)]

MTD-GPT的训练算法总结如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pAWGk5gQ-1721239588327)(https://i-blog.csdnimg.cn/direct/b32fb461abc64a789662c5a81d271e13.png)]

硅谷秋水

关注

21
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
MTD-GPT: 一个在无信号的交叉路口执行自动驾驶的多任务决策GPT模型

23年7月份来自同济大学和清华大学的工作的论文“MTD-GPT: A Multi-Task Decision-Making GPT Model for Autonomous Driving at Unsignalized Intersections“。该方法是利用了GPT的思路，训练一个token化的NLP模型。
复制链接

扫一扫

专栏目录