Drive as You Speak: 在自动驾驶车中实现与大语言模型的类人交互

最新推荐文章于 2024-08-05 16:41:26 发布

硅谷秋水

最新推荐文章于 2024-08-05 16:41:26 发布

阅读量685

点赞数 25

分类专栏：大模型自动驾驶文章标签：自动驾驶语言模型人工智能

本文链接：https://blog.csdn.net/yorkhunter/article/details/140409244

版权

大模型同时被 2 个专栏收录

399 篇文章 3 订阅

订阅专栏

自动驾驶

86 篇文章 1 订阅

订阅专栏

23年9月份来自美国普渡大学和维吉尼亚大学，以及深圳的儿科医学AI实验室的论文“Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles“。

自动驾驶汽车的未来在于以人为中心的设计和先进的AI功能的融合。未来的自动驾驶汽车不仅将运送乘客，还将交互并适应他们的愿望，使旅程舒适、高效和愉快。本文提出一种用大语言模型（LLM）来增强自动驾驶汽车决策过程的新框架。通过整合LLM的自然语言能力和上下文理解、专业工具的使用、协同推理以及与自动驾驶汽车上各种模块的动作，该框架旨在将LLM的高级语言和推理功能无缝集成到自动驾驶汽车中。有可能彻底改变自动驾驶汽车的运行方式，提供个性化的帮助、持续学习和透明的决策，最终有助于更安全、更高效的自动驾驶技术。

根据数字孪生工作（论文“Mobility Digital Twin: Concept, Architecture, Case Study, and Future Challenges， IEEE IoT Journal，2022），并在更广泛的背景下，作者提出一个以人为中心的LLMs自动驾驶车辆集成框架[27]。如图所示，物理世界由人类驾驶员、车辆和交通目标组成。在物理世界中，当LLM在道路上行驶时，人类驾驶员是中心智体，直接发送命令和指令。交通环境包含各种元素，包括车辆、行人、交通信号灯、路况和交通锥，所有这些都决定道路上运动和交互的复杂性。由LLM指导的车辆在这个生态系统中运行，通过控制器和执行器完成从驾驶员或LLM收到的命令。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PMgD9xID-1721152469606)(https://i-blog.csdnimg.cn/direct/31571b12d7ae4d5f9c23f90624b9116c.png)]

虚拟世界包括LLM、记忆和基本工具，其中包括感知模块、定位模块和车内监视器。感知模块从传感器（包括外部摄像头、激光雷达和雷达）获取原始输入，并将这些数据处理成适合LLM的格式。定位模块使用 GNSS 数据来确定车辆的精确位置。在车内，车内监视器采用内部摄像头、温度计和其他传感器观察车内环境，防止分心、过度温度或不舒服的情况。整个框架的核心是LLM，作为其中心智能。它们接收来自驾驶员的命令，随后启动对相关模块的查询以获取相关信息。此外，记忆部分充当存储库，存储历史动作和驾驶员的首选项，使LLM能够持续学习和增强。这个经验库使LLM遇到类似情况时能够做出类似的决定，随着时间推移可增强系统的适应性和性能。该记忆还包含地图和当地法律信息，使LLM能够做出更明智的决定，适应各种情况。

如图所示，模拟一个真实的驾驶场景，其中自动驾驶汽车配备了大语言模型（LLM）来协助决策和运动规划。这辆车在印第安纳州的一条双车道高速公路上，以96公里/小时的速度从东到西行驶。其在另一辆车辆的后面，前车以相同速度行驶但相距只有8米远，少于理想的安全距离。在相邻的左侧车道上，注意到另外两辆车：一辆以 112 公里/小时的速度行驶在前方 30 米处，另一辆以 104 公里/小时的速度，落后 40 米。司机高度关注，一名乘客系着安全带。LLM的任务是处理来自感知模块（车速和距离），定位模块（道路和环境条件）和车内监控系统（驾驶员的注意水平和安全带等安全措施）的多层数据。LLM制定了全面的9步运动规划，优先考虑安全性，同时有效地执行驾驶员的命令以超车。图中自车及其轨迹标记为橙色；当前车道前方车辆及其轨迹为蓝色；相邻车道上的车辆及其轨迹为绿色。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8FdYWFw1-1721152469611)(https://i-blog.csdnimg.cn/direct/7b3500f2331f4fbfa7c8ad3c9953d1ef.png)]

在实验场景中，大语言模型（LLM）不仅通过收集和分析数据，还应用上下文-敏感的推理层来展示其高级推理能力。LLM评估周围车辆的速度和距离，驾驶员的注意状态，甚至交通状况，以确定最安全和最有效的超车轨迹。这种实时推理的能力，动态考虑多个因素，极大地有助于道路安全和运营效率。LLM不仅遵循预定义的规则，而且根据独特的情况调整决策，突出了他们增强自动驾驶未来的潜力。

LLM还可以从记忆模块访问以前的数据和用户偏好，从而提供更加个性化的驾驶体验。例如，在实验的背景下，系统可以回忆起驾驶员在超车速度、跟随距离和车道偏好方面的舒适度。然后，这些信息可能会影响LLM如何解释和执行诸如“超车”之类的命令，确保该动作与驾驶员过去的行为和舒适区保持一致。因此，LLM记忆-驱动的个性化能力不仅可以提高用户满意度，还可以促进更安全、更可预测的自动驾驶场景。

硅谷秋水

关注

25
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Drive as You Speak: 在自动驾驶车中实现与大语言模型的类人交互

23年9月份来自美国普渡大学和维吉尼亚大学，以及深圳的儿科医学AI实验室的论文“Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles“。
复制链接

扫一扫

专栏目录