接收、推理和反应:自主车辆中按大语言模型说的进行自动驾驶

23年10月来自普度大学、UIUC和Virginia大学的论文“Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles“。

以人为中心的设计和人工智能(AI)能力的融合为超越交通的下一代自动驾驶汽车开辟了新的可能性。这些车辆可以动态地与乘客互动,并适应他们的偏好。本文提出了一种框架,利用大语言模型(LLM)来增强自动驾驶汽车的决策过程。本文通过专门工具利用LLM的语言理解和上下文理解能力,旨在将LLM的言语能力和推理能力整合到自动驾驶汽车中。研究包括在场景HighwayEnv中进行的实验,该场景是一组自动驾驶和战术决策任务的环境集合,旨在探索LLM在各种场景中的解释、交互和推理能力。还研究了实时个性化,展示了LLM如何影响基于口头命令的驾驶行为。实证结果强调了利用思维链提示的实质性优势,从而改善驾驶决策,并显示出LLM通过持续的言语反馈增强个人驾驶体验的潜力。所提出的框架旨在转变自动驾驶汽车的运营方式,提供个性化支持、透明决策和持续学习等,提高安全性和有效性。在LLM集成到自动驾驶汽车的支持下,实现了以用户为中心、透明和自适应的自动驾驶生态系统。

如图所示,物理世界包括人类驾驶员、车辆和交通目标。在物理世界中,人类驾驶员是物理世界中的中心智体,当他们驾驶在路上时,发送命令和指令给LLM。交通环境包含各种元素,包括车辆、行人、红绿灯、道路状况和交通锥,所有这些都会增加道路上运动和交互的复杂性。在LLM的指导下,车辆在这个生态系统中运行,通过控制器和执行器执行从驾驶员或LLM那里收到的命令。
请添加图片描述

作者利用GPT-4在HighwayEnv中执行闭环驾驶实验,HighwayEnw是一组用于自动驾驶和战术决策任务的环境[39]。实验的主要目标是验证LLM在解释、思维链推理、个性化能力以及与环境条件交互方面的能力。LLM无法直接访问环境数据。为了弥补这一差距,用了工具和存储模块从模拟中提取环境信息。利用感知模块等工具捕捉环境信息,定位模块确定车辆位置,以及保留当地法律和交通数据的存储器,确保LLM全面了解当前情况。它们的输出作为实验中的观察结果,然后提供给LLM进行进一步处理、推理和决策。

思维链提示实验在两组不同的实验设置进行了比较。第一组的特点是只包括环境观察结果及其相应的解决方案。这是为了衡量LLM在复杂驾驶场景中的表现,仅基于他们的基础训练。相反,第二组的设置被称为“思想链”组。在这种方法中,不仅将观察结果和解决方案传达给LLM,而且还向他们提供了决策过程的全面分解。这种设置旨在展示LLM在上下文学习和思维链提示的支持下,在性能、适应性和解释方面的潜在增强表现。

此外,还建立三个具有不同查询方法的组,探索汇入场景中个性化的潜力:一个组不提供查询,另一个被指示“更积极地驾驶”,最后一个被要求“更保守地驾驶”。通过这个设置,旨在分析不同的查询或命令如何影响在高速公路并线过程中装备LLM车辆的行为和决策,特别关注揭示在驾驶体验和安全动态中个性化的潜力。

在HighwayEnv[39]上采取GPT-4的闭环驾驶实验中,试图评估LLM的解释、思维链和环境交互能力。实验设计包括两个不同的高速公路场景。在第一种情况下,超车环境是安全的;相比之下,第二种情况下,超车被认为是不安全和不合适的。重点是观察LLM在各种条件下的反应和决策。对于每个场景,采用两种不同的训练方法。一种方法使用标准提示进行训练,另一种方法则使用思维链提示方法。这个设计目的是识别和强调使用思维链提示相对于标准提示技术的优势。

安全和不安全场景的整个工作过程分别如图所示。当使用思维链方法提示时,LLM首先生成全面合理的想法,然后再提出驾驶规划。相反,在标准的提示训练方法下,LLM直接提出规划。从这两种方法得出的规划方案有明显的区别。

请添加图片描述

一些结果分析讨论如下:

A.上下文学习

在涉及高速公路立交桥和合流的实验中,见证了上下文学习的力量。当给LLM提供这些场景的具体示例和操作思想时,他们成功地应对了挑战,强调了上下文的重要性。这表明,虽然LLM具有广泛的通用知识,但当它们与特定环境相一致时,可以在自动驾驶中变得强大。实验还展示了上下文学习增强LLM预测能力的潜力。在自动驾驶中,准确的预测至关重要。通过提供特定场景的上下文,可以用提示来提高LLM的预测性能,使其达到预期结果。

LLM中上下文学习最明显的好处之一是其固有的适应性。传统的决策模型通常需要从头开始重新训练,或者在面对新场景时使用预训练的模型。高速公路的超车和合并驾驶实验展示了上下文学习的优势。当LLM配备了更多的上下文细节时,它们能够熟练地驾驭这些复杂的场景,避免了在没有提供上下文的情况下所观察的崩溃场景。LLM中的上下文学习只需要相关指导来重新调整其决策方法。此外,不断重新训练传统模型的成本可能很高,尤其是考虑到所需的计算资源。LLM中的上下文学习提供了一种更具成本效益的替代方案。通过简单地提供上下文指导,可以重新校准模型的行为,减少计算和成本。

B.推理

LLM的任务是处理来自感知模块(车速和距离)、定位模块(道路和环境条件)和车内监控系统(驾驶员的注意水平和安全带等安全措施)等多层数据。LLM制定了一个全面的行动规划,优先考虑安全,同时有效执行驾驶员超越前车的命令。

在实验场景中,LLM不仅收集和分析数据,还应用上下文-敏感的推理层,展示了其先进的推理能力。LLM评估了周围车辆的速度和距离,甚至交通状况,确定最安全、最有效的超车轨迹。实时推理、动态地考虑多个因素的能力大大有助于道路安全和运营效率。LLM不仅遵循预定义的规则,而且根据特殊情况调整决策,突出了其增强未来自动驾驶系统的潜力。

C.思维链

在高速公路立交桥和并线情况下驾驶的场景中进行的实验阐明了LLM在应用于自动驾驶时的一个关键方面:依赖于上下文输入来优化性能。在没有初始框架或示例来指导决策过程的情况下,LLM容易采取次优行动,这在实验中导致了车辆碰撞。

这种现象可以归因于LLM的底层架构和训练方法。传统上,这些模型,对于在训练中提供大量相关数据的任务而言,会表现出色。在没有直接或相关训练的情况下,面临新的挑战或环境,他们可以做出对人类观察者来说似乎奇怪或有风险的决定。

向LLM引入思维提示链——一系列结构化的推理或例子——似乎可以弥合这一知识差距。通过呈现一系列逻辑和相互关联的步骤或指令,该模型可以更好地驾驭现实世界驾驶场景的复杂性。

在实验中,提供给LLM的思想提示链,起到了引导信号的作用,确保该模型与类人推理和驾驶的实际考虑对齐。这个过程可以比作人类驾驶员在学习新驾驶策略时接受逐步的指令或引导。随时间的推移,通过持续接触这些思维链,LLM可能会在类似的驾驶场景中泛化这些方针。

当配备了思维链时,LLM性能的增强突显了其在自动驾驶中的潜力:

a) 稳健决策框架:在实验中引入思维链提示,表明LLM的决策能力显著增强。通过思维链的提示,LLM表现出了更可靠、更可行的性能,尤其是在高速公路立交桥和汇入等复杂场景中。
b)安全和遵守法律规范:将安全约束和法律方针纳入LLM的决策过程,不仅可以防止危险行为,还可以确保遵守道路法规。现在自动驾驶车辆在道路上随处可见,它们必须严格遵守安全协议和法律标准。使用这些约束的思维链提示,确保了自动驾驶汽车能够在复杂的环境中行驶,而不会危及乘客或违反法规。
c) 个性化驾驶体验:LLM与思维链提示框架的适应性为自动驾驶的个性化提供了独特的机会。在自动驾驶汽车的背景下,每个驾驶员或乘客在驾驶风格、舒适性和响应性方面都有不同的偏好。通过思维链提示捕捉这些细微差别,LLM可以根据个人偏好调整驾驶行为。无论是更平稳的加速度曲线、高速公路上的特定车道偏好,还是城市景观中的首选路线,定制驾驶体验的潜力都会为乘客带来更舒适、更愉快的旅程。

D.个性化

合并场景实验显示了LLM在基于口头指令的个性化驾驶体验方面具备潜力。基于口头指令的不同驾驶统计数据——“驾驶更保守”、“驾驶更激进”和无指令——表明LLM对这些指令有着强有力的理解,并将其转化为以用户为中心的可操作驾驶策略。这种个性化的方法有可能提高自动驾驶汽车操作中的用户满意度和安全性。

响应“驾驶更保守”和“驾驶更激进”等口头指令时,驾驶行为发生了明显变化,这表明LLM在理解和执行命令方面具有巨大潜力。这种基于实时反馈不断将驾驶行为从保守调整为激进的能力,证明了高度个性化驾驶体验的潜力。随着时间的推移,通过驾驶员的持续输入,LLM可以潜在地微调车辆的驾驶参数,使其与驾驶员的个人偏好紧密一致,从而提供量身定制的驾驶体验。

实时适应口头指令的潜力,在改进自动驾驶汽车系统变得更加以用户为中心方面,带来了显著优势。这样的个性化水平可以允许个人基于其当前偏好或外部条件来确定驾驶风格的积极性或保守性,显著提高用户满意度。

此外,用户和LLM之间的这种实时反馈环,随时间推移可以扩展到学习和预测个人偏好,从而创建真正个性化的驾驶策略。这可能为每个用户开发一个配置文件,使LLM甚至在提供指令之前就知道驾驶员的偏好。

E.解释性

LLM的语言交互能力被证明对建立信任至关重要。当驾驶员命令“越过前方车辆”时,LLM评估了各种因素,并将其推理清楚地传达给驾驶员。这种透明交互不仅提高了安全性,而且给汽车的自主能力注入了更大的信心。这一关键优势增强了透明度和信任。当车辆做出复杂的决定时,例如在高速双车道高速公路上超越另一辆车时,乘客和驾驶员可能会自然产生疑问或担忧。在这些情况下,LLM不仅执行任务,而且阐明决策过程中每一步背后的推理。LLM用易懂的语言提供实时、详细的解释,揭示了车辆的动作和基本逻辑。这不仅满足了人类对自主系统如何工作的天生好奇心,而且在车辆和乘客之间建立了更高水平的信任。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值