自动驾驶中大语言模型决策方法的评估

23年12月来自日本Turing电动汽车公司的论文“Evaluation of Large Language Models for Decision Making in Autonomous Driving“。

已经提出了在自动驾驶中利用大语言模型(LLM)的各种方法。将LLM用于自动驾驶的一种策略包括将周围目标作为文本提示输入LLM,以及它们的坐标和速度信息,然后输出车辆的后续运动。在将LLM用于此类目的时,空间识别和规划等功能至关重要。特别是,需要两种基本能力:(1)空间-觉察决策,即从坐标信息中识别空间并做出避撞决策的能力;(2)遵守交通规则的能力。然而,还没有对不同类LLM如何准确地处理这些问题进行定量研究。这项研究在自动驾驶的背景下定量评估了LLM这两种能力。此外,为了对在实际车辆中实现这些能力的可行性进行概念验证(POC),为此作者开发了一个使用LLM驾驶车辆的系统。

最近,有许多研究用LLM进行自动驾驶[10,7,12,4,9]。传统的机器学习方法中,用历史训练数据来训练模型。然而,众所周知,驾驶数据呈现长尾分布[2]。鉴于过去数据中未涵盖的不熟悉场景频繁出现,仅根据历史数据训练的模型可能难以处理这种前所未有的情况。另一方面,LLM被认为具有一定程度的世界常识,因为LLM是用来自世界的大量文本数据进行训练的[3]。如果LLM能够被熟练地集成到自动驾驶系统中,可以预见,它们不仅会像人类一样,在不熟悉的场景中做出驾驶决策,利用普通常识,还可以理解和遵守交通规则和法律。此外,LLM有可能处理伦理判断,其决策能力可以扩展到考虑驾驶场景中的道德和伦理困境。

已经提出了LLM进行自动驾驶的各种方法,包括从识别目标的文本描述输出驾驶操作的技术[7,9,10],以及将驾驶图像输入LLM描述驾驶情况的技术[12,5,6]。在机器人领域,LLM用于从模糊的指令中选择要执行的动作[1,8,11]。

用LLM的自动驾驶主要涉及解释基于文本的周围车辆和行人坐标和速度信息[7,9,10]。关于周围目标的信息由单独的感知模块预先识别。LLM然后基于该信息来确定适当的驾驶动作。这些研究表明,LLM仅使用坐标信息来识别物理空间并确定驾驶行为。换言之,LLM只需要从坐标信息中了解附近或前方有其他车辆,然后就后续采取行动做出决定。这一过程称为“空间-觉察的决策”。先前的研究并没有通过定量实验彻底研究LLM在空间-觉察决策中的准确性。如果这种准确性不高,就会对后续任务的准确性产生负面影响,因此定量评估至关重要。本研究旨在定量评估,当提供有关周围目标坐标和速度的信息时,不同的自动驾驶LLM空间-觉察决策的准确性。

在自动驾驶中用LLM的一个优势是它们能够理解和遵守交通法规。传统上,将法律纳入自动驾驶方法需要用复杂的基于规则方法。用LLM,可以通过在提示中详细说明要遵循的规则(上下文学习)或通过训练LLM,来整合这些规则。此外,自动驾驶的社会性实施可能需要系统做出伦理判断,类似于Trolley问题。本文实验是为了调查开发人员是否可以为此类伦理决策设定基于价值的标准。LLM自动驾驶实现时,速度是至关重要的,但也要权衡准确性。用不同规模的LLM进行评估来比较其准确性。最后,构建利用LLM驾驶一个真实车辆的系统。基于目标检测器发现的目标坐标信息和人类提供的指令,汽车就能够朝着指定的目的地导航。

真实交通情况的仿真

对于空间-觉察决策方面,评估LLM是否可以根据同一车道或相邻车道上车辆的位置和速度做出决策。对于“遵守交通规则”方面,评估LLM是否能够根据与限速、变道和超车相关的规则做出正确的决定。此外,考虑空间-觉察决策和交通规则遵守在更复杂场景测试中的决策能力。
模拟的交通状况涉及一条双车道道路,假设高速公路环境,右侧车道用于驾驶,左侧车道用于超车。向LLM提供了有关自车行驶的车道、自车的速度、周围车辆的类别、以x、y米为单位的位置和以km/h为单位的速度、交通规则和用户指令的信息。交通规则是用自然语言制定的。指令LLM从[“加速”、“保持”、“减速”、“向右变道”、“向左变道”]中选择一个选项,并解释选择的原因。

在实际车辆的部署

进行一项实验,评估LLM安装在车辆时的空间-觉察决策和规则遵循能力。由于在公共道路上变道的安全问题,与模拟一样,该实验是在私有区域进行的。实验设置如下:将一个目标放在汽车前面,并让LLM根据人提供的语音命令将该目标指定为目的地。如果没有确定目标地,LLM也可以输出“停止”命令。彩色的圆锥体被用作这个实验的目标。这些目标由车辆的车载摄像头识别,并根据它们在图像中的位置计算位置。这些信息以(id,category,color,position in x,y meters)的格式作为检测目标插入到提示中。如果LLM正确理解诸如“朝向最右侧的彩色锥体”之类的指令,可以确认LLM具有空间-觉察的决策能力。此外,为了评估LLM遵守规则的能力,一名交通官员被安排在车辆前方,发指令让自车停车或离开。

实验结果

下表是LLM在遵循交通规则(FTR)方面、空间-觉察决策(SADM)方面和两者相结合(SADM和FTR)的准确性比较。

添加图片注释,不超过 140 字(可选)

如表是LLM推理输出的代表性示例。GPT-4是唯一一个在不被用户指令误导的情况下正确做出决策的模型。

添加图片注释,不超过 140 字(可选)

如表是不同LLM的准确性比较。手动创建数据集模拟实际车辆的实验设置。

添加图片注释,不超过 140 字(可选)

如图是人给汽车的指令和LLM作为响应的输出,显示在汽车可视化显示器中。如果汽车向前行驶,行驶方向的线条会叠加在摄像头图像上。

添加图片注释,不超过 140 字(可选)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值