快速读懂“端到端”智能驾驶

最新推荐文章于 2024-08-05 11:02:14 发布

智驾旺仔

最新推荐文章于 2024-08-05 11:02:14 发布

阅读量923

点赞数 12

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_44716725/article/details/135677220

版权

马斯克发布“v12 is reserved for when FSD is end-to-end AI, from images in to steering, brakes & acceleration out.”。

即FSD Beta v12将采用“端到端”的架构，根据输入视觉等传感器信号，直接输出获得转向、刹车、加速度等车辆控制信号。这跟现有架构具有很大的不同，那么该方案目前是否真的可行？

那么“端到端”到底是什么？“端到端”是深度学习中的一个概念，英文为“End-to-End (E2E)”，指的是一个AI模型，只要输入一个原始数据就可以输出最终的结果，比如ChatGPT就是一个“端到端”的AI模型，只要输入文字语句，就可以直接得到最终的回答。

对于智能驾驶中的“最终结果”，用第一性原理分析，智能驾驶其实就是自动控制车辆从A点到达B点，同时使车辆启停、运行过程中能够平顺丝滑，而且能够避开道路上的一切威胁，也不能够对道路上其他参与者造成威胁。达到这种要求，需要车辆能够踩油门、刹车、转动方向盘等操作，但是什么时间踩油门？什么时间踩刹车？以及向左转动方向盘？还是向右转动方向盘？转动方向盘的转角是多少？这些内容就是智能驾驶AI模型应该输出的“最终结果”。

马斯克所说的FSD Beta v12将采用的方案是可以归为“端到端”的。但是，目前各家对于“端到端”还没有一个统一的定义，因此在不同语境下的“端到端”可能会存在一定的差异。但是对于FSD Beta v12这种“端到端”的另外一种叫法是：“感知决策一体化”，也就是将“感知”和“决策”融合到一个模型中，这种描述其实相对更加准确一些。

那么，“端到端”很牛吗？对于目前量产的智能驾驶，绝大多数采用的是“模块化架构”。所谓的“模块化架构”就是将智能驾驶拆

分成一个个典型的任务，然后将这些小任务分别交给专门的AI模型或模块来完成处理，比如说：感知、预测、规划等，实际感知模型的任务就是输入摄像头、雷达等传感器信息，综合梳理这些信息，并在这些信息中找到车辆周围的障碍物、车辆、车道线、红绿灯等一切与驾驶相关的元素信息，然后把感知信息汇总后发给规划模块；规划模型根据得到的信息规划出车辆的最佳行驶路线，再把这个路线发送给控制模块（控制模块一般不属于AI模型），实现车辆的最终的控制。在这种架构中，每个大的模块下，又可能是以多种模型组合而成的，

例如：感知，其中包含了分类、追踪、定位等AI模型，各司其职。即一个智能驾驶模型中，可能会包含许多模型，每个模型都要专门进行训练、优化、迭代，随着模型的不断进化，参数量也会不断的增加，导致所需的研发人员也会激增，研发投入将会更高。而“端到端”架构则是通过一个模型实现以上多种模型的功能，研发人员只需要针对这一个模型进行整体的训练、调整、优化，就能实现性能上的提升，更好的集中资源，实现功能聚焦；另一方面，传统的模块化架构可以看作是一种流水线，许多模型的输入参数，其实是前一级模型的输出结果，如果前一级模型的输出结果有误差，就会影响下一级模型的输出，最终影响整套系统的性能。在这种架构下，不同模块之间的传输不可避免的会产生误差。而“端到端”架构，输入传感器信号后，可以直接输出车辆所需要的控制信号，大大降低了级联误差的概率，因此也大大的提升了系统性能的上限，整体的潜力非常大。

在智能驾驶领域，“端到端”其实并不是什么新鲜概念，早在1988年面世的自动驾驶试验车就是基于“端到端”架构，在大学校园中实现最高70kph的自主行驶，目前仍有许多厂商在进行“端到端”智能驾驶技术的研发，如特斯拉、英伟达、Comma.AI等。从量产车上来看，模块化架构依然是目前智能驾驶的绝对主流，这说明“端到端”架构依然存在着一些关键性问题未能解决，“可解释性”就是其中最为关键的一点。

在AI业内有一词特别火—“涌现”，意思是当模型突破某个规模时，性能突然显著提升，表现出了让人惊艳甚至是意外的能力。而之所以称之为“涌现”，是因为这种情况是不可控的，也不能预知，即便是一个模型发生了“涌现”，人们也不知道其内部发生了什么？是什么导致了其能力的巨大变化？这就是深度学习中模型的重要评估指标“可解释性”的具体表现。一个模型如果“可解释性”好，说明人们对这个模型的运作逻辑是能理解的，也就能更细致，且有目的的来对模型进行调整，但如果一个模型的“可解释性”很差，那说明人们对这个模型内部知之甚少，甚至都不能理解这个模型为什么能跑起来，是一个“黑盒”，虽然它能做出正确的决策，但方法是什么？理由是什么？这些都是未知的，这将是很可怕的事情。 “端到端”智能驾驶就是一种“可解释性”很差的模型，这就导致了一系列的问题，首当其冲的就是安全性。如ChatGPT，作为“端到端”的大模型，它的能力很强，但是“胡说八道”的情况也经常发生，对于这种语言模型错了没多大影响。但是对于智能驾驶来说，如果决策规划出现问题，将会导致严重的事故，甚至危及生命。但是“端到端”智能驾驶是个“黑盒子”，即便出了差错，研究人员也无法回溯了解它为什么会出差错，更无法知道是哪一部分出了问题，又该如何去避免，只能通过不断的训练、调参、增加参数量来尽可能地提高模型的准确率，但是能否达到100%的安全，这还是要打一个问号。另一方面，智能驾驶它的训练本身就是很复杂的，感知模型训练时需要的是经过标注的图片，这相对比较容易，而“端到端”智能驾驶它需要的是驾驶行为，因此需要大量标注有驾驶行为的视频才能进行训练，而且采集和标注都很困难，因此，“端到端”智能驾驶它的闭环验证比较困难，缺少足够的真实数据。目前主要还是在仿真模型环境中进行训练和验证，这也直接影响了它的量产和落地。

不过，“端到端”智能驾驶困难重重，但是“端到端”对智能驾驶的诱惑实在太大了，因此厂商们也在不断的推进“端到端”的落地，也带来了不同的解题思路。例如；混合专家系统（Mixture of Experts MoE），这是一种集成学习技术，在一个大模型中，有很多个“专家网络”，这些“专家网络”之间是具备共享结构的，在训练的时候，网络之间可以分享一些共性的学习结果，保证整体学习的一致性，但同时这些“专家网络”又是针对不同任务而构建的，可以针对不同的任务进行预测，例如：识别、分类、预测、定位等，与模块化架构类似，在这种结构下，人们既可以针对某些专家网络进行训练，又可以针对整个模型进行训练，一定程度上提高了“端到端”模型的“可解释性”，还方面对模型内的网络进行单独替换，此外，针对“端到端”的安全问题，还可以通过多种方法进行补足，例如：加入毫米波雷达，激光雷达等传感器，提供更多的传感器特征，提高参数量，或者在最后的控制上加入一些“if-then”条件进行约束，再或者对模型进行强化学习等。而在训练和验证方面，可以看到“端到端’与量产车的部署数量有很大关系，例如特斯拉之所以能够在“端到端”的落地上走在行业前列，应该是因为其量产车所具备的“影子模式”有很大关系，每一辆搭载FSD的特斯拉都在为FSD“端到端”的训练做出贡献。不难看出，“端到端”智能驾驶一旦成功落地，对于整个行业的影响将是颠覆性的，但我们也需要认识到，“端到端”具有优势也有挑战，而且挑战依然是极大的。

智驾旺仔

关注

12
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
快速读懂“端到端”智能驾驶

而在训练和验证方面，可以看到“端到端’与量产车的部署数量有很大关系，例如特斯拉之所以能够在“端到端”的落地上走在行业前列，应该是因为其量产车所具备的“影子模式”有很大关系，每一辆搭载FSD的特斯拉都在为FSD“端到端”的训练做出贡献。另一方面，智能驾驶它的训练本身就是很复杂的，感知模型训练时需要的是经过标注的图片，这相对比较容易，而“端到端”智能驾驶它需要的是驾驶行为，因此需要大量标注有驾驶行为的视频才能进行训练，而且采集和标注都很困难，因此，“端到端”智能驾驶它的闭环验证比较困难，缺少足够的真实数据。
复制链接

扫一扫