Align and Prompt: Video-and-Language Pre-training with Entity Prompts（论文笔记）

Gεorge

已于 2023-12-27 10:37:06 修改

阅读量113

点赞数

分类专栏： paper览胜文章标签：计算机视觉深度学习

于 2022-01-13 11:11:57 首次发布

本文链接：https://blog.csdn.net/weixin_43883362/article/details/122448868

版权

一句话概括：基于alignment和prompt的视频文本预训练模型

摘要翻译

视频和语言预训练展示了其在多种下游任务上的可靠的提高。大多数以前的方法通过一个标准的基于transformer的多模态编码器来获取跨模态交互，不能完全解决视频和文本特征错误对齐的问题。此外，学习细粒度的视觉语言对齐通常要求用现有目标检测器来提供目标信息，而这一过程由于目标检测器有限的词汇表和高昂的算力要求而成为系统的瓶颈。
在这篇文章中，我们提出对齐和提示：一种新的视频和语言预训练框架（ALPRO），通过在稀疏采样的视频帧上操作，实现了更加高效的不依赖显式目标检测器的跨模态对齐。首先我们引入了视频文本对比（VTC）损失函数来在实例层面对单模态视频文本特征，这简化了跨模态交互的建模。然后，我们提出了一个视觉指导的预训练任务：提示实体建模（PEM），使用一个实体提示器模块，通过自监督学习方式来学习细粒度的视频和文本区域对齐。最后，我们在来自网络的视频文本对数据集上预训练了这个视频文本transformer模型，使用了提出的VTC和PEM损失函数，以及两个标准损失函数：掩蔽语言建模（MLM）和视频文本匹配（VTM）。预训练后的模型在文本视频检索和视频问答两个任务上都取得了SOTA，以可靠的边界超越了此前的工作。补充材料和预训练模型可在以下链接获得：https://github.com/salesforce/ALPRO

Motivation

视频相对于图片拥有更多冗余信息，对模型容量和运算效率提出挑战。此前的模型大多使用预提取的视频特征，特征提取器是固定的，所以这些方法在迁移到目标域的时候是次优的。最近提出的模型使用稀疏采样的视频帧来提取特征，可以实现端到端训练和对视频backbone的微调。
现有视频文本预训练模型存在以下限制：

视频和文本特征之间的交互普遍采用点积或跨模态transformer编码器来建模，然而不同模态的特征通常存在于不同的嵌入空间，因此造成的错误对齐导致直接编码跨模态交互变得低效。
许多视觉参考的预训练任务并未显式建模细粒度区域视觉信息，而这些信息被证实对强调视觉推理的下游任务很重要。有些方法尝试使用目标检测器来产生伪标签来作为监督，但受限于检测的精度不足、目标类别有限等限制。
之前的稀疏与预训练模型使用图片文本对来训练，使得其对事件维度信息的建模效率不佳。

主要贡献

提出ALPRO，一种从稀疏视频帧和文本中高效学习跨模态表示的预训练模型
引入了视频文本对比损失函数来更好地对齐实例级别的单模态表示，简化了跨模态交互的建模
提出了一种视觉参考的预训练任务：提示实体建模，使得模型能够捕获细粒度的区域-文本对齐
证实了ALPRO在视频文本检索和视频问答任务上的高效性，超越了之前的SOTA

模型

模型结构：

在这里插入图片描述
左侧是视觉语言预训练模型，右侧是prompter，prompter产生实体的软标签用于监督预训练。
video encoder：
采用12层的Timesformer来提取视频特征。输入是224x224的帧。
text encoder：
6层transformer
Multimodal encoder：
6层transformer，直接concatenate视频和文本特征

预训练

在四个目标上预训练，分别是MLM, VTM, VTC和PEM。其中VTC和PEM是为了加强跨模态对齐。
视频文本对比对齐（VTC）
给定视频和文本的嵌入token [CLS]，优化以下相似函数：
在这里插入图片描述
以使得成对的视频和文本描述有更高的相似度得分。其中 $g_v(.)$ 和 $g_t(t_{cls})$ 是一种线性投影，作用是把[CLS]嵌入转换到一个公共的低维度空间。
对比损失函数将匹配的视频文本对当做正样本，而batch中的其他所有可能的对都被当做负样本。对每个视频文本对