欢迎大家关注我的B站:
偷吃薯片的Zheng同学的个人空间-偷吃薯片的Zheng同学个人主页-哔哩哔哩视频 (bilibili.com)
目录
本篇博客以LanguageMPC为例介绍大模型如何赋能决策规划,提供可解释性以及交互能力,未来将开设《大模型赋能自动驾驶》专栏,详细解析相关概念与最新技术
1.引入LLM的背景
- 基于学习的智驾系统需要复杂的rule或reward设计,一旦依赖预定义又会出现泛化能力弱的情况,对corner case 的效果不好,最终沦为一个需要不断改进的补丁系统。
- 有限的数据集和采样效率会导致long-tail problem,corner case样本数量少将导致训练出来的策略并不是最优的
- 缺乏可解释性和安全性是learning-based的智驾系统最严峻的问题,拥有可解释性而不是一个黑盒子,才能获得社会和法律监管的认可
总之,LLM拥有推理能力,对处理corner case,最优策略的学习、决策透明化有巨大的潜力
2.文章架构
本文的架构是利用LLM来分析和推理各种场景,提高high-level的决策,并通过调整参数矩阵转换为low-level的底层控制信息输送给MPC。创新点如下
(1)设计了一个思维链的框架,将决策分解为许多子问题,使LLM能全面推理
(2)开发了使用LLM提供高级文本决策指导底层控制器的技术
(3)实验比现有方法成功,并实现多车协同和基于文本输入的驾驶
3.国内外研究现状
将自然语言转化为可操作的结果至关重要,LLM是一个重要的桥梁。
如语言到动作的映射,早年从时间逻辑发展到运动基元学习,现在朝着指令跟随的端到端导航和端到端机械臂操作等任务发展。
如语言到代码的生成,早年从编程竞赛到指令跟随任务,发展到利用LLM来分配RL中的reward等
现阶段有研究将LLM集成到智驾系统中,但是并不能将推理结果直接转化为可操作的驾驶动作,或者并没有充分挖掘其推理的潜力而依赖于规则。
4.方法

(1)思维链:LLM处理复杂和广泛的数据通过一个思维链的框架,思维链通过一系列的工具来串联,工具让LLM在决策过程中遵循每次只获取简单和必要的信息。
(2)注意力分配:开车时有效分散注意力符合人类驾驶员的思维过程。因此LLM系统通过辨别车辆的意图与优先路权,并判断是否与自车有冲突的可能,最终有可能冲突的车辆则是我们需要注意的,从而形成观测矩阵。
(3)态势感知:利用注意力分配得到的观测矩阵等信息,LLM推理选择出此时自车所处的情况
(4)行动指导:由于情况是预定义的,因此可以直接调整到相应的权重矩阵,从而来提供加速减速或转向的指导。预定义的情况虽然有限,但是足够抽象和通用,能覆盖广泛的驾驶场景。
本文探讨了将大型语言模型(LLM)应用于自动驾驶决策的背景、方法和研究现状。通过思维链框架和注意力分配,LLM能处理复杂场景,提供高级决策并转化为驾驶指令,以解决传统方法中的corner case和长尾问题,增强系统的可解释性和安全性。

5263

被折叠的 条评论
为什么被折叠?



