KoMA:知识驱动的多智体框架用于大语言模型自动驾驶

121 篇文章 0 订阅
87 篇文章 1 订阅

24年7月来自北航和JHU的论文“KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models”。

大语言模型 (LLM) 作为自主智体,为通过知识驱动的方式应对现实世界的挑战提供了一种新途径。这些 LLM 增强方法在泛化和可解释性方面表现出色。然而,驾驶任务的复杂性往往需要多个异构智体的协作,这凸显了这种 LLM 驱动智体需要进行合作知识共享和认知协同。尽管 LLM 前景光明,但当前的应用主要围绕单智体场景,这限制了它们在面对复杂、相互关联的任务时的应用范围。

为了拓宽知识驱动策略的视野并增强自主智体的泛化能力,KoMA 框架由多智体交互、多步规划、共享记忆和基于排名的反思模块组成,以增强多智体在复杂驾驶场景中的决策能力。基于框架生成的驾驶场景文本描述,多智体交互模块使LLM智体能够根据场景信息分析和推断周围车辆的意图,类似于人类的认知。多步规划模块使LLM智体能够逐层分析并获得最终行动决策,以确保短期行动决策的目标一致。共享记忆模块可以积累集体经验以做出更优的决策,基于排名的反思模块可以评估和改进智体行为,以提高驾驶安全性和效率。KoMA框架不仅增强自动驾驶智体的鲁棒性和适应性,而且显著提高了它们在不同场景中的泛化能力。

对自动驾驶系统的追求一直处于技术创新的前沿,旨在通过提高安全性、效率和可达性来彻底改变交通运输。传统的自动驾驶方法主要是数据驱动 [1]–[4],严重依赖大量数据集的收集和分析来训练能够应对复杂驾驶场景的算法。虽然这些方法取得了重大进展,但它们往往受到数据集偏差 [5]、过拟合 [6]、[7] 和缺乏可解释性 [8]、[9] 等挑战的阻碍,这可能会限制它们在新或不可预见情况下的有效性。

为了应对这些挑战,自动驾驶已经转向知识驱动的方法 [10]、[11]。这种转变的基础是认识到人类驾驶员可以依靠他们丰富的经验和知识以及逻辑推理能力在面对新场景时做出合理的判断和决策。大语言模型 (LLM) 在大量文本数据上进行训练,以处理、理解和生成自然语言文本。LLM 拥有广泛的人类基础知识和卓越的推理能力,使其成为这种新知识驱动范式的强大工具 [12],[13]。以 GPT3.5 和 GPT4 [13] 等为代表的这些模型,在理解和生成自然语言文本方面表现出了无与伦比的能力,并且可以用少量的提示词快速适应新的应用场景,表明它们有潜力在自动驾驶系统中充当智体 [14]–[16]。

最近对基于 LLM 自动驾驶智体的研究,主要在简单场景中进行测试,例如高速公路主干道驾驶场景和环形轨道驾驶场景 [10],[17],[18]。在这些情况下,其他车辆对智体车辆的影响可以忽略不计,智体车辆处于安全稳定的环境中。然而,真实驾驶场景复杂且时变,主要体现在两个方面:1)驾驶场景的多样性,如匝道合并、环岛等,由于其复杂性增加了车辆间发生冲突的可能性,这种多样性要求车辆智体能够做出合理、快速的规划,保证驾驶的安全和效率;2)驾驶员的多样性,由驾驶员的独特特征决定,并体现在其驾驶行为中,这种多样性增加了场景的时间变异性。因此,基于LLM的自动驾驶智体需要进一步验证其在复杂时变场景中的智能水平,特别当不同目标的智体之间相互进行影响。

在多智体驾驶场景中,基于LLM的车辆智体必须同时考虑固定驾驶员模型车辆的影响和可变的基于LLM智体车辆对其自身驾驶决策的影响。通过采用这种方式,智体可以更准确地模拟真实驾驶条件的复杂性,从而推动知识驱动智体技术的前沿发展。成熟的知识驱动框架DiLu [10] 概括了自动驾驶系统的知识驱动范式,包括三个组件:1)可供智体交互的环境;2)具有记忆、推理和反思能力的驾驶智体;3)保留经验的记忆组件。

如图所示,在扩展多智体之间的交互之后,知识驱动范式仍可在多智体框架内使用。但由于场景在时间和空间上的复杂性增加,需要进一步扩展和改进一些模块,以更好地应用于复杂场景。

请添加图片描述

目前LLM的推理模块主要分为两种方式:直接对每一帧进行单步决策[10]和一次性制定包含一系列多步决策的规划[19]。然而,前者在面对更为复杂的驾驶场景时,仅基于当前场景描述对下一帧进行决策,容易陷入局部最优解,缺乏前瞻性,难以实现需要跨多帧持续行动的目标。而后者在面对更为动态的驾驶场景时,一次性规划多步行动决策,容易因场景条件突变导致规划失败,从而无法顺利完成场景目标。

在知识驱动的自动驾驶场景中,当前反思模块主要在碰撞发生后激活[10],[11],但这引发了两个问题:(1)在复杂场景中,事故原因往往不是最后的行动决策,而是一长串决策中较早做出的关键决策。识别关键的错误决策并反思并予以纠正是一项关键挑战。(2)现实中,驾驶员不仅需要确保驾驶的安全性,还需要确保驾驶的效率。完全牺牲效率来换取安全性的智体,对于现实场景来说是不切实际的。

记忆模块作为智体历史驾驶经验的储存库,能够检索类似的场景经验,以协助LLM赋能的智体做出行动决策。早期的强化学习多智体系统,每个智体都是独立训练的[20],但这样可能导致集体智能受限于单个智体,训练效果不佳。

KoMA是一个由LLM赋能的多智体知识驱动的自动驾驶框架,包含环境、多智体交互、多步规划、共享记忆和基于排名反思等五个重要模块,如图所示。KoMA框架引入多步推理模块,通过“目标-规划-行动”三层推理过程实现最终的单步行动决策,保证行动决策的连续性。KoMA框架提出一个基于分数的反思模块,其中包括对安全性和效率的评估。它将启动反思的条件扩展到分数突然下降或极低的情况,以便及时纠正错误决策,并提高存储在记忆模块中记忆片段的质量。

请添加图片描述

环境模块为驾驶智体提供驾驶场景,可以是模拟环境,也可以是真实场景,主要负责在做出决策之前,为每个自动驾驶智体提供相应场景的文本描述。多智体交互模块进一步处理环境模块返回的文本信息,主要使LLM能够像人一样分析场景中其他车辆的行为,推断其意图,并用相关信息支持后续的行动决策。

思维链(CoT)是LLM中使用的一种促进复杂推理和解决问题能力的技术。该方法的核心思想是将复杂问题分解为一系列较小的步骤,称为中间推理步骤。这使模型能够通过以逻辑和顺序的方式解决每个步骤来逐步构建完整的解决方案[34]–[36]。多步规划模块是CoT技术的一种应用,用于指导LLM做出最终的行动决策。 LLM首先根据当前场景分析目标,然后制定规划,最后做出行动决策。这种结构化的规划过程使LLM智体能够对其行动保持清晰的目标,并更有效地追求长期目标。基于当前场景的文本描述和历史类似场景的经验回放,LLM最终通过不断的分析选择一个动作,然后将行动决策返回给环境模块执行。

共享记忆模块利用共享向量数据库存储所有智体的成功驾驶经验。在每个智体做出决策之前,该模块会检索与智体当前情况相关的类似描述,然后将这些经验提供给智体,帮助制定明智的行动决策。该模块允许每个智体进行训练,积累经验并与环境交互,不断提高决策效率。
基于排名的反思模块,根据效率和安全性对执行后的每个驾驶决策进行评估。在场景结束后,框架会审查这些决策的结果,尤其是那些得分较低或有冲突的决策。只有那些以高分纠正决策的经验才会被保留。该过程在算法中概述。
请添加图片描述

多步规划模块是 KoMA 中 LLM 推理的基石。该过程如图所示,作为一个多步骤规划模块推理过程案例。多步规划模块指目标-计划-行动的三级多步推理,对场景目标任务进行逐级分析和分解,确保行动前后决策目的的一致性。此外,在制定规划时,还参考规划生成、规划评估、规划排序、规划选择四步流程,选出最符合LLM驾驶特性的最终规划,确保规划的可行性和个性化。

请添加图片描述

共享记忆模块如图所示:其让不同的智体检索各自场景的相关经验。共享记忆模块是一个向量数据库,它积累了来自所有智体的驾驶经验片段。这些片段被向量化,然后存储在同一个数据库中。在做出决策时,智体使用向量搜索从类似的场景中检索类似的驾驶经验,从而辅助决策过程。
请添加图片描述

基于排名反思模块如图所示:其评估决策,找出得分较低的决策并进行纠正;然后它会利用这些改进后的决策以及得分较高的经验来更新共享记忆模块。

请添加图片描述

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值