论文阅读:VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

4 篇文章 0 订阅
1 篇文章 0 订阅

目录

一、整体说明

二、具体解读

1、作者

2、问题介绍

3、模型架构

(1)整体流程

(2)时序记忆模块

(3)物体记忆模块

4、相关算法

(1)时序记忆模块

(2)相似度计算

(3)物体记忆模块

5、实验

三、总结


一、整体说明

这是一篇ECCV2024的一篇文章,主要是使用agent的方式增强模型的视频理解能力。主要通过设计时序记忆模型和物体记忆模块,使得LLM在回答问题时可以进行查询,从而获得更好的表现。使用的main LLM是GPT4,agent的framework是langchain。

二、具体解读

1、作者

2、问题介绍

现有的多模态的模态大多对于视频理解的任务能力有限,主要局限于模型对于上下文的记忆能力有限。使用agent的方法,可以在不进行大量的训练和后续工程的情况下,获得更好的表现。

3、模型架构

(1)整体流程

一段视频输入之后,首先对于视频进行切片。接下来,对于每个片段的信息进行提取,分为时序记忆和物体记忆。这里提出物体记忆的主要原因是,作者默认多数视频理解的问题都会与物体有关。当用户提出问题,agent会根据具体情况,不断地进行推理和使用相关的工具,最终做出回答。

(2)时序记忆模块

时序记忆模块分为2部分。一部分通过相关的模型提取出每个片段的文本概况信息,同时在这个文本信息的基础上,提取相关的embedding。另一部分直接提取图像相关的信息的embedding。每一个片段对应这3种信息。

(3)物体记忆模块

物体记忆模块也分为2部分。首先直接使用目标检测算法识别出所有的物体。接着检测物体的相似度,如果物体的相似度很高,那么就认为这是同一个物体,在结果表中进行合并。同样的,对于检测到的物体,也使用CLIP提取特征进行存储。

4、相关算法

(1)时序记忆模块

这里是对于视频输入模型的说明。首先,视频会被分割为多个片段v_{i}。然后,对于每个片段,提取caption和embeding,caption还会额外再提取一次特征。然后全部存入M_{T}。物体通过目标检测和追踪,重编号即合并相同的物体之后,存储进M_{O}

(2)相似度计算

这里是通过CLIP和DINOv2得到的embedding,然后计算这2者的余弦相似度(也就是计算表达式中的cosine())。接着,将这2者的相似度加权平均。值得注意的是,这里的计算式中有很多凭空出现的具体数字,这是由网格搜索法得到的。网格搜索法一般会用在机器学习中的任务,可以得到超参数大致的最优解。不过这种方法比较暴力,并且这里用的是gpt4作为main LLM,应该花了不少钱。

(3)物体记忆模块

当实际进行运行的时候,大体流程同LLM,只不过对话的触发由agent自动实现。这里的h即一般的对话。对话停止分为2个条件,达到MAX_STEP或者触发action=="stop"。这里提供了4种工具,caption的检索方式为时间,其他都是对于具体片段或物体进行查询。

5、实验

这部分大段篇幅都是与其他多模态大模型和多模态agent进行对比,方法有很多相同。有一点要注意的是,有些对比的对象其使用的LLM很小,比本文用的gpt4参数规模其实差好几十倍,所以表现不好其实在意料之中。

最后附一张样例的表现。

三、总结

从文章的内容来看,前半部分信息量比较大,后面的内容较少。不过,还是可以体会到文章一开始需要去构建记忆的实现花了很多功夫,当然从结果来看是比较直接的。agent在现在很大程度和多模态联系在一起,比较值得关注。从本文来看,进行agent相关的实践很有必要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值