LINGO-1: 在自动驾驶中探索自然语言的作用

最新推荐文章于 2024-08-10 22:52:02 发布

硅谷秋水

最新推荐文章于 2024-08-10 22:52:02 发布

阅读量580

点赞数 13

分类专栏：大模型自动驾驶文章标签：自动驾驶人工智能机器学习语言模型

本文链接：https://blog.csdn.net/yorkhunter/article/details/140001904

版权

大模型同时被 2 个专栏收录

451 篇文章 7 订阅

订阅专栏

自动驾驶

89 篇文章 2 订阅

订阅专栏

Wayve公司的自动驾驶模型 “LINGO-1: Exploring Natural Language for Autonomous Driving“。

来自网页：https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/

LINGO-1是一款开环驾驶解说员，它结合了视觉、语言和动作，增强对基础驾驶模型的理解、说明和训练等。具体分析如下。

在大语言模型的基础上，Wayve更进一步探索包含图像、驾驶数据和语言等信息的视觉-语言-动作模型（VLAM）。在训练机器人方面使用自然语言仍处于起步阶段，尤其是在自动驾驶方面。将语言、视觉和行动结合起来，作为一种新的模式，可能会产生巨大的影响，加强如何解释、说明和训练基础驾驶模型。所谓基础驾驶模型，指的是能够执行多项驾驶任务的模型，包括感知（感知周围的世界）、因果和反事实推理（理解所看到的）以及规划（确定适当的行动顺序）。可以使用语言来解释驾驶场景中的因果因素，这可能更快地进行训练并推广到新的环境中。

另外，还可以用语言来探究模型中关于驾驶场景的问题，更直观地理解它所解释的内容。这种能力可以提供见解，帮助提高驾驶模型的推理和决策能力。同样令人兴奋的是，VLAM开辟了通过对话与驾驶模型互动的可能性，用户可以询问自动驾驶汽车在做什么以及为什么。这可能会极大地影响公众对这项技术的看法，建立对其能力的信心和信任。

除了拥有一个具有广泛能力的基础驾驶模型外，它还非常期待有效地学习新任务，并快速适应小训练样本的新领域和场景。这就是自然语言可以为支持更快学习来增值的地方。例如，可以想象这样一种场景，在这种情况下，纠正驾驶行为，伴随着对错误和正确行为的自然语言描述。这种额外的监督可以增强基础模型的少样本微调。考虑到这些想法，Wayve团队探索用自然语言构建端到端自动驾驶的基础模型。

LINGO-1开发的一个关键特征是创建一个可扩展和多样化的数据集，其包含从专家司机那里收集的图像、语言和动作数据，他们在英国各地开车时同时进行解说。解说技巧让人想起专业驾驶教练在课堂上使用的技巧：教练大声说出场景中有趣的方面，并用简短的短语证明他们的驾驶行为，帮助学生从事例中学习。

驾驶数据解说增强了标准专家驾驶数据集收集，而不会影响收集专家驾驶数据的速度，从而实现了一种通过自然语言收集另一层监督数据的经济高效方法。训练每个专家驾驶程序遵循标注协议以保持数据集的质量。该协议包括关注所说单词的相关性和密度、解说和驾驶动作之间的时间同步、以及用于描述事件的术语。

如下图所示，在各种视觉和语言数据源上训练开环驾驶模型LINGO-1，对感知、反事实、规划、推理和注意等任务进行视觉问答（VQA）。LINGO-1可以通过简单的提示变化来执行许多任务。这个能够向LINGO-1提出有关场景理解的问题，并对场景中影响驾驶决策的主要原因进行推理。换句话说，LINGO-1可以提供对驾驶行为和推理的描述。

添加图片注释，不超过 140 字（可选）

LINGO-1可以生成连续的解说，解释驾驶行为背后的原因。这可以帮助如何通过自然语言理解这个模型在关注什么以及在做什么。除了解说，还可以向LINGO-1询问有关各种驾驶场景的问题，评估模型对场景的解释并理解其推理。

机器学习模型缺乏可解释性是一个常见的问题，因为决策过程往往看起来像一个黑盒子。然而，利用自然语言可以了解人工智能系统是如何做出决策的。

创建自然语言界面可以让用户与AI模型进行有意义的对话，使其能够质疑选择，并深入了解场景理解和决策。乘客和自动驾驶汽车之间的这种独特对话可以提高透明度，让人们更容易理解和信任这些系统。此外，集成语言可以增强该模型适应人类反馈并从中学习的能力。就像驾驶教练指导学生驾驶一样，纠正指令和用户反馈可以随时间的推移更加完善模型的理解和决策过程。

这里Wayve目标是，利用LINGO-1的自然语言、推理和规划能力来增强闭环驾驶模型。他们正在研究许多不同的集成体系结构，下面展示了一个高级体系结构。

添加图片注释，不超过 140 字（可选）

另外，当涉及到训练时，一张图片可能抵得上千言万语，一段话抵得上一千张图片。通过自然语言，可以解释驾驶场景中的因果因素。例如，不需要成千上万的汽车在路上为行人减速的训练例子，而是用几个例子，并附上一个关于如何在特定情况下采取行动的简短文本描述和其他需要考虑的因素。换句话说，可以将驾驶行为的描述和因果推理纳入模型的训练中来加速学习。

因果推理在自动驾驶中至关重要，这样系统能够理解场景中元素和动作之间的关系。一个良好落地的VLAM可以在一些事情做的更好，如基础模型识别关键因果成分和理解驾驶场景中实体之间的联系等。例如，该系统可以将在斑马线上等待的行人与指示“请勿穿越”的交通信号灯联系起来。这一进步有可能显著改善规划，尤其是在数据有限的具有挑战性的场景中。

此外，可以将LLM中源自语言的通用知识纳入驾驶模型，增强对未见过情况的概括。LLM已经从互联网规模的数据集中掌握了大量的人类行为知识，能够理解识别目标、交通法规和驾驶技巧等概念。例如，语言模型知道树、商店、房子、追球的狗和停在学校门前的公共汽车之间的区别。可以将这些知识集成到基础模型中，提高系统的原始智能，帮助应对训练示例有限的挑战性长尾场景。

虽然这些知识应用于实际驾驶情况仍然是一个挑战，但VLAM用更广泛的信息编码图像数据，为更好、更安全的自动驾驶提供了潜力。这可以加速学习过程，提高模型的准确性，并提高其处理各种驾驶任务的能力。

可以这么说，LINGO-1为具身智能的安全性和可解释性开辟了许多可能性。当然，也要注意该模型目前的局限性。

1 泛化能力有限。目前，LINGO-1最擅长评论英国的道路规则，尽管它从接受训练的广泛知识基础上学习了全球驾驶文化。
2 幻觉。只能继续通过RLHF和其他常见技术降低幻觉的频率和严重程度。
3 有限的时间上下文。视频深度学习具有挑战性，因为视频数据通常比图像或文本数据集大几个数量级。特别是，基于视频的多模态语言模型需要较长的上下文长度才能嵌入许多视频帧，从而推断复杂和动态的驾驶场景。
4 闭环推理。希望大语言模型的推理能力能够影响自动驾驶，构建自动闭环。

最后，可以看出来，GAIA-1是一个token化的大模型，其训练需要很多数据去学习一个自动驾驶的世界模型。而LINGO-1是一个具身智能，是一个可以做自动驾驶的VLAM模型；虽然暂时是一个开环解说工具，但作为主要的部分，它可以去构成一个闭环的自动驾驶系统。
那么哪一个更容易实现？或者哪一个更快落地呢？可能是LINGO-1。做demo的话，在较容易的ODD超越现有小模型自动驾驶方法，估计是GAIA-1。