ALANAVLM：一种用于自我中心视频理解的多模态具身智能基础模型-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/141794137

24年6月来自 Alana AI 的论文“ALANAVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding”。

通过机器人或可穿戴设备部署的 AI 个人助理，需要具身理解才能与人类有效协作。然而，当前的视觉-语言模型 (VLM) 主要关注第三人称视角视频，而忽略以自我为中心感知体验的丰富性。故此，本文首先引入以自我为中心的视频理解数据集 (EVUD)，用于训练 VLM 完成特定于以自我为中心视频的视频字幕和问答任务。其次，本文提出 ALANAVLM，一个使用参数高效方法在 EVUD 上训练的 7B 参数 VLM。最后，本文在 OpenEQA，具身视频问答领域具有挑战性的基准，评估 ALANAVLM 的能力，该模型比开源模型（包括使用 GPT-4 作为规划器的 Socratic 模型）高出 3.6%。

在嵌入式AI个人助理，例如智能眼镜（或供盲人和视力不佳者使用的可穿戴相机）的场景中，希望构建能够理解用户活动视频及其视觉空间环境的人工智能系统，以便用户能够对视觉查询做出响应。对于这项任务，模型在生成答案之前必须能够接收一系列帧作为输入。最近，通过利用预训练的大语言模型 (LLM)，已经提出视觉-语言模型 (VLM)，它用适配器将视觉专家生成的表示，与可由纯文本语言模型操纵的文本tokens融合在一起（Liu，2024）。按照这种方法，VLM 已经扩展到处理视频理解任务（Maaz，2023）。

本文开发以自我为中心的视频理解数据集 (EVUD)，用于训练 VLM ，这样完成以自我为中心的视频问答任务。该数据集包含 29,477 个示例，其概览如图所示：

请添加图片描述

EVUD 如图所示：一组以自我为中心的视频字幕生成和视频问答任务，可用于指令调优基于视频的 VLM。

请添加图片描述

在 EVUD 上微调 Chat-UniVi（Jin，2023）来构建 ALANAVLM，Chat-UniVi 是一个配备视频理解功能的视觉-语言基础模型。这个微调步骤对于注入 ALANAVLM 的自我中心视频理解技能至关重要。从 Chat-UniVi 开始构建模型有几个原因。首先，它是一个开源模型，其代码和权重都是公开的。其次，它是为处理语言、图像和视频而设计的，可以考虑任意数量的帧。第三，它在经典视频理解任务中的表现优于其他开源视觉和语言基础模型。

Chat-UniVi（“Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding”）旨在在统一框架内同时对图像和视频进行建模，以便大语言模型 (LLM) 能够理解这些语言序列。Chat-UniVi 通过一组动态视觉tokens统一表示图像和视频，将图像的复杂空间细节与视频所需的更广泛的时间理解联系起来，从而实现这一目标。如图所示：图像可以通过不同大小的视觉tokens来描述；例如，主要目标（即绵羊）需要具有大量视觉tokens的细粒度表示，而背景（即雪山）仅用一个视觉token即可充分建模；对于视频，视频最初被分成几个事件，随后这些视觉tokens扩展到每个事件内帧，封装帧级动态；这种对图像和视频的统一表示显著减少了视觉tokens的数量，同时保持了模型的表达能力。值得注意的是，较长的视频被分配了更多的视觉tokens。

请添加图片描述

微调的一些细节如下。利用排练来缓解先前学习技能的遗忘（Robins，1995），即在进行新信息训练时，模型在一小部分先前学习信息上重新训练。用 LoRA（Hu，2021）对模型进行微调，冻结预训练的模型权重并将可训练的秩分解矩阵注入 Transformer 架构的每一层，大大减少下游任务的可训练参数数量。在所有的实验中，都对排练数据和 EVUD 进行 ALANAVLM 微调。

从 Chat-UniVi 指令调整数据集开始构建排练数据集，其中包括来自 LLaVa（Liu，2024）由 NLP 和 COCO 示例组成）、MIMIC-IT（Li，2023）和 Video-ChatGPT（Maaz，2023）的实例。由于希望 ALANAVLM 尽可能少地忘记语言技能，并具有良好的视频理解能力，因此调整先前学习示例的分布，稍微减少对文本和图像实例的重视，而更多地强调 Video-ChatGPT 实例。具体来说，将 LLaVa NLP 实例、LLaVa COCO 实例、MIMIC-IT 实例和 Video-ChatGPT 的百分比从 5%、82%、13% 和 25% 降低到 10%、20%、50% 和 20%。考虑到分布变化所产生的实例，从每个子集中抽取 1% 的样本，构建由 10,000 个实例组成的排练数据，如表所示。

请添加图片描述