[论文笔记] InternVideo-CSDN博客

本文链接：https://blog.csdn.net/yusijinfs/article/details/133440651

InternVideo 论文笔记

Author: Sijin Yu

文章目录

InternVideo 论文笔记

在这里插入图片描述

1. Information

标题: InternVideo: General Video Foundation Models via Generative and Discriminative Learning

arXiv URL: https://arxiv.org/abs/2212.03191

code: https://github.com/OpenGVLab/InternVideo

发布时间: 2022 年 12 月

2. Abstract

基础模型最近在计算机视觉的各种下游任务中表现出优异的性能.
但是, 大部分现存的视觉基础模型都只是简单地关注于图像水平的预训练, 它们缺乏在动态且复杂的视频水平上的预训练.
为了填补这一空白, 我们利用生成式、判别式自监督视频模型, 提出一种通用的视觉模型, InternVideo.
具体地, InternVideo 使用了 Masked Video Modeling 和 Video-language Contrasive Learning 为预训练目标, 并以可学习的方式有选择地协调这两个完整框架的视频表示, 以增强各种视频下游应用.
InternVideo 在 39 个视频数据集上达到了 SOTA, 包括视频动作识别/检测, 视频语言对齐, 开放世界视频应用. 我们的模型在 K400 和 SSV2 上分别达到了 91.1% 和 77.2% 的 top-1 准确率. 这些结果展现了 InternVideo 在视频理解上的泛化能力.

3. Model

3.1 Overview

在这里插入图片描述

使用两种自监督模型, 学习视频的表达: Masked Video Reconstruction 和 Multimodal Contrastive Learning.
使用 Cross Model Attention, 综合两个自监督模型的优点, 获取更好的视频表达.
在下游任务中针对性有监督学习.

3.2 Masked Video Encoder

在这里插入图片描述

使用 VideoMAE 作为 Encoder, ViT 作为 Decoder.
Decoder 的通道数是 Encoder 的一半, 默认有四个 blocks.
对于一个未被 masked 的视频输入:
- 在时间上下采样, 降低帧数.
- 将视频在时间上分组, 分成不重叠的 3D patches 块.
- 每个 3D patch 被线性映射到一个 cube embedding (立方体嵌入). [⚠️注: cube embedding 是一个拥有三个维度的 embedding.]
- 对这些 cube embedding, 使用 tube masking, [⚠️注: 这是一种掩盖或遮挡部分嵌入值的方法, 只保留其中的一部分信息.] 使用高 masked 率 (如 90%).

3.3 Multimodal Video Encoder

在这里插入图片描述

使用 UniFormerV2 做 Video Encoder. [⚠️注: UniFormerV2 可见我的博客: 点击访问 UniFormer & UniFormerV2 论文笔记.]
使用 align-before-fuse 范式:
- 视频和文本分别编码.
- 在 align (对齐) 阶段, 使用对比学习损失去对齐视频和文本的嵌入空间.
- 在 fuse (融合) 阶段, 使用一个 caption decoder (字幕解码器) 作为跨模态融合器.