具身智能端到端大模型VLA (Vision Language Action)

Roger_Ceng

已于 2025-01-06 16:17:43 修改

阅读量9k

点赞数 54

文章标签：人工智能

于 2025-01-06 15:59:36 首次发布

本文链接：https://blog.csdn.net/yiwei1225/article/details/144964377

版权

VLA模型最早见于机器人行业。2023年7月28日，谷歌DeepMind发布了全球首个控制机器人的视觉语言动作（VLA）模型RT-2。其后，这个模型概念快速扩散到智驾领域。

VLA模型是在视觉语言模型（VLM）的基础上发展而来的。VLM是一种能够处理图像和自然语言文本的机器学习模型，它可以将一张或多张图片作为输入，并生成一系列标记来表示自然语言。然而，VLA不仅限于此，它还利用了机器人或汽车运动轨迹的数据，进一步训练这些现有的VLM，以输出可用于机器人或汽车控制的动作序列。通过这种方式，VLA可以解释复杂的指令并在物理世界中执行相应的动作。

从单模态模型到多模态模型的演变，为 VLA 模型的引入奠定了基础。

计算机视觉领域的关键进步（蓝色）包括 ResNet [85]、ViT [86] 和 SAM [87]。

自然语言处理领域的开创性工作（橙色）包括 GRU [88]、Transformer [66]、BERT [89]、ChatGPT [62] 等。

强化学习（绿色）中，DQN [90]、AlphaGo [91]、PPO [92]、Dactyl [93] 和 DT [94] 做出了显著贡献。

视觉语言模型已成为多模态模型的重要类别，例如 ViLBERT [95]、CLIP [1] 和 LLaVA [96]。VLA 的三个主要方向是：预训练、控制策略和任务规划器。

端到端大模型2.0 - VLA (Vision Language Action) 是一种先进的多模态机器学习模型，它结合了视觉、语言和动作三种能力，旨在实现从感知输入直接映射到机器人控制动作的完整闭环能力。这一技术的发展标志着自动驾驶和其他智能系统向更加自主化迈进的重要一步。VLA模型被开发用于解决具身智能中的指令跟随任务。与以ChatGPT为代表的聊天AI不同，具身智能需要控制物理实体并与环境交互。机器人是具身智能最突出的领域。在语言为条件的机器人任务中，策略必须具备理解语言指令、视觉感知环境并生成适当动作的能力，这就需要VLA的多模态能力。