论文阅读：VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

yul1024

于 2024-09-13 20:47:26 发布

阅读量529

点赞数 19

分类专栏：多模态 agent CV 文章标签：论文阅读目标跟踪计算机视觉人工智能目标检测深度学习神经网络

本文链接：https://blog.csdn.net/yul1024/article/details/142167440

版权

多模态同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

agent

1 篇文章 0 订阅

订阅专栏

一、整体说明

这是一篇ECCV2024的一篇文章，主要是使用agent的方式增强模型的视频理解能力。主要通过设计时序记忆模型和物体记忆模块，使得LLM在回答问题时可以进行查询，从而获得更好的表现。使用的main LLM是GPT4，agent的framework是langchain。

二、具体解读

1、作者

2、问题介绍

现有的多模态的模态大多对于视频理解的任务能力有限，主要局限于模型对于上下文的记忆能力有限。使用agent的方法，可以在不进行大量的训练和后续工程的情况下，获得更好的表现。

3、模型架构

（1）整体流程

一段视频输入之后，首先对于视频进行切片。接下来，对于每个片段的信息进行提取，分为时序记忆和物体记忆。这里提出物体记忆的主要原因是，作者默认多数视频理解的问题都会与物体有关。当用户提出问题，agent会根据具体情况，不断地进行推理和使用相关的工具，最终做出回答。

（2）时序记忆模块

时序记忆模块分为2部分。一部分通过相关的模型提取出每个片段的文本概况信息，同时在这个文本信息的基础上，提取相关的embedding。另一部分直接提取图像相关的信息的embedding。每一个片段对应这3种信息。

（3）物体记忆模块

物体记忆模块也分为2部分。首先直接使用目标检测算法识别出所有的物体。接着检测物体的相似度，如果物体的相似度很高，那么就认为这是同一个物体，在结果表中进行合并。同样的，对于检测到的物体，也使用CLIP提取特征进行存储。

4、相关算法

（1）时序记忆模块

这里是对于视频输入模型的说明。首先，视频会被分割为多个片段 $v_{i}$ 。然后，对于每个片段，提取caption和embeding，caption还会额外再提取一次特征。然后全部存入 $M_{T}$ 。物体通过目标检测和追踪，重编号即合并相同的物体之后，存储进 $M_{O}$ 。

（2）相似度计算

这里是通过CLIP和DINOv2得到的embedding，然后计算这2者的余弦相似度（也就是计算表达式中的cosine()）。接着，将这2者的相似度加权平均。值得注意的是，这里的计算式中有很多凭空出现的具体数字，这是由网格搜索法得到的。网格搜索法一般会用在机器学习中的任务，可以得到超参数大致的最优解。不过这种方法比较暴力，并且这里用的是gpt4作为main LLM，应该花了不少钱。