论文阅读：Koala: Key frame-conditioned long video-LLM

最新推荐文章于 2024-10-14 14:41:14 发布

yul1024

最新推荐文章于 2024-10-14 14:41:14 发布

阅读量850

点赞数 17

分类专栏： CV 多模态 LLM 文章标签：论文阅读计算机视觉人工智能语言模型图像处理神经网络深度学习

本文链接：https://blog.csdn.net/yul1024/article/details/141939739

版权

CV 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

多模态

4 篇文章 0 订阅

订阅专栏

LLM

2 篇文章 0 订阅

订阅专栏

一、整体说明

这是一篇CVPR2024 highlight的一篇文章，文章整体信息含量非常高。该文章主要做视频理解任务，方法是基于Q-former在原本的vLLM的基础上进行微调，以实现原本只有秒长度视频理解的模型能够到达分钟长度视频理解能力。

二、具体解读

1、作者

2、问题介绍

vLLM的理解能力通常只在数秒钟级别，而当视频变长，原本的模型使用稀疏采样的方法就不能理解其中的细节，就会出现错误。如上图展示，模型的注意力无法聚集在正确的位置。

3、模型架构

（1）整体架构

原本的vLLM的结构是，给出一个text prompt和一个video prompt，输入到模型中，模型给出文本的回答。如上图所示，即左右两端的结构。对于视频的部分，首先对视频进行采样，得到key frames，对其进行编码，然后使用Q-former将其转换为LLM可以理解的token，经过线性映射后给到LLM中。

本文的工作是中间的部分。额外对于key frames中间的部分进行更细粒度的采样，使用相关的encoder进行编码，但是之后的Q-former进行额外的处理。此处条件的意思是，原本得到的key frames的tokens作为条件，在这个条件的基础上进行信息提取。CS模块对于中间的片段进行信息提取，而CV模块对于多个片段整体提取信息。

（2）CS、CV架构

CS基于原本的Q-former，加入对应可学习的query以使得全局token的query可以与原本Q-former中的query兼容，而上一步编码得到的视频片段的信息作为被查询的对象，供全局的token查询。

CV同理，除了残差连接，对于通过CS模块得到的整体tokens也进行对于的兼容处理，方法是加上相同大小的可学习的query。

这些处理在后文的实验部分有具体说明。不过推测实际实验过程是没有这些东西，后续进行改进逐渐加入的。

4、实验

（1）zero-shot

这里就需要提及一个现象language prior，即使不给出视频信息，有些模型依然能达到比平均更好的表现。但这其实不是模型通过理解视频推理达到的，而是模型见过问题，所以根据文本的相似度给出的回答。表中灰色的部分即这种现象。

（2）消融实验

对于设计的模块的消融，对于增加的兼容的query的消融。最后是相比直接给模型token的对比。

（3）实验效果图示

三、总结

这是多模态大模型的文章，基于video-llama，数据集是HowTo100M，工作非常充分。本文思路类似LSTM，将短期扩展到长期。其中Q-former的方法值得去学习，这确实可以用到其他的工作当中。同时，language prior现象也值得关注。类似的，之前我了解到的是imagenet有一些模型会通过训练大量的数据，使得实际上模型见过最终测试集的数据，也就是实际上的过拟合，从而得到非常高的准确率，但这实际上并不是模型得到的能力。在LLM中，这种现象也同样存在，包括多模态LLM。