文章目录
论文名称:Video Understanding with Large Language Models: A Survey
摘要
随着在线视频平台的蓬勃发展和视频内容的不断增加,对熟练的视频理解工具的需求显著增加。鉴于大语言模型(LLMs)在语言和多模态任务中的卓越能力,本综述详细介绍了利用LLMs(Vid-LLMs)的视频理解最新进展。 Vid-LLMs的新兴能力令人惊讶,尤其是它们在开放式时空推理与常识知识相结合方面的能力,为未来的视频理解提供了有希望的路径。我们对Vid-LLMs的独特特点和能力进行了分类,分为四种主要类型:基于LLM的视频代理、Vid-LLMs预训练、Vid-LLMs指导微调和混合方法。此外,本综述还对Vid-LLMs的任务、数据集和评估方法进行了全面研究。此外,它探讨了Vid-LLMs在各个领域的广泛应用,突出了它们在现实世界视频理解挑战中的可扩展性和多功能性。最后,它总结了现有Vid-LLMs的局限性,并概述了未来研究的方向。更多信息,请访问https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding。
目录
- 引言 3
- 基础知识 5
- LLMs中的视觉整合 7
- 语言在视频理解中的作用 7
- 其他模态 8
- 训练策略 8
- Vid-LLMs: 模型 8
- 基于LLM的视频代理 8
- Vid-LLM预训练 11
- Vid-LLM指导微调 11
- 使用连接适配器进行微调 12
- 使用插入适配器进行微调 14
- 使用混合适配器进行微调 14
- 混合方法 15
- 任务、数据集和基准 15
- 识别和预测 16
- 数据集概述 16
- 评估指标 16
- 字幕和描述 16
- 数据集概述 17
- 评估指标 18
- 定位和检索 18
- 数据集概述 19
- 评估指标 19
- 问答 19
- 数据集概述 20
- 评估指标 20
- 视频指导微调 21
- 预训练数据集 21
- 微调数据集 21
- 识别和预测 16
- 应用 22
- 媒体和娱乐 22
- 交互和用户中心技术 22
- 医疗保健和安全应用 22
- 未来方向和结论 23
- 局限性和未来工作 23
- 结论 24
引言
我们生活在一个多模态的世界,视频已成为主要的媒体形式。随着在线视频平台的快速扩张和监控、娱乐和自动驾驶中摄像头的普及,视频内容已成为一种高度吸引人且丰富的媒介,在深度和吸引力方面超越了传统的文本和图像-文本组合。这一进步促使视频制作数量呈指数级增长,每天创造出数百万个视频。然而,手动处理如此庞大的视频内容既费时又费力。因此,对能够有效管理、分析和处理这些丰富视频内容的工具的需求不断增长。为了满足这一需求,视频理解方法和分析技术应运而生,利用智能分析技术自动识别和解释视频内容,从而显著减轻人工操作员的工作量。此外,这些方法的不断发展提升了它们的任务解决能力,使它们能够越来越熟练地处理各种视频理解任务。
图1:视频理解方法的发展可以总结为四个阶段:(1)传统方法,(2)神经网络视频模型,(3)自监督视频预训练,以及(4)用于视频理解的大语言模型,即Vid-LLMs。它们的任务解决能力不断提高,并具有进一步提升的潜力。
如图1所示,视频理解方法的演变可以分为四个阶段:
传统方法。在视频理解的早期阶段,使用手工制作的特征提取技术,如尺度不变特征变换(SIFT)[1]、加速稳健特征(SURF)[2]和梯度方向直方图(HOG)[3],来捕捉视频中的关键信息。背景减除[4]、光流方法[5]和改进的密集轨迹(IDT)[6, 7]被用于建模运动信息以进行跟踪。由于视频可以被视为时间序列数据,时间序列分析技术如隐马尔可夫模型(HMM)[8]也被用于理解视频内容。在深度学习流行之前,基本的机器学习算法如支持向量机(SVM)[9]、决策树[10]和随机森林也被用于视频分类和识别任务。聚类分析[11]用于对视频片段进行分类,或者主成分分析(PCA)[12, 13]用于数据维度降低,也是视频分析中常用的方法。
神经网络视频模型。与传统方法相比,深度学习方法在视频理解方面具有更强的任务解决能力。DeepVideo [14]是最早引入深度神经网络(特别是卷积神经网络(CNN))进行视频理解的方法。然而,由于未充分利用运动信息,其性能不如最佳的手工特征方法。双流网络[15]结合了CNN和IDT来捕捉运动信息以提高性能,验证了深度神经网络在视频理解方面的能力。为了处理长篇视频理解,采用了长短期记忆(LSTM)[16]。时序段网络(TSN)[17]通过逐个分析视频段并对其进行聚合,也被设计用于长篇视频理解。基于TSN,引入了Fisher向量(FV)编码[18]、双线性编码[19]和局部聚合描述符向量(VLAD)[20]编码[21]。这些方法改进了在UCF-101[22]和HMDB51[23]数据集上的性能。与双流网络不同,3D网络通过引入3D CNN到视频理解(C3D)[24]开启了另一条分支。膨胀的3D ConvNets(I3D)[25]]利用2D CNN的初始化和架构,如Inception[26],在UCF-101和HMDB51数据集上取得了巨大的改进。随后,人们开始使用Kinetics-400(K-400)[27]和Something-Something[28]数据集来评估模型在更具挑战性场景中的性能。ResNet[29]、ResNeXt[30]和SENet[31]也从2D扩展到3D,出现了R3D[32]、MFNet[33]和STC[34]。为了提高效率,3D网络已经在各种研究中被分解为2D和1D网络(例如S3D[35]、ECO[36]、P3D[37])。LTC[38]、T3D[39]、Non-local[40]和V4D[41]专注于长篇时间建模,而CSN[42]、SlowFast[43]和X3D[44]则倾向于实现高效率。引入视觉Transformer(ViT)[45]推动了一系列杰出的模型(如TimeSformer[46]、VidTr[47]、ViViT[48]、MViT[49])。
大型语言模型用于视频理解。最近,大型语言模型(LLMs)取得了快速的进展[71]。在广泛数据集上预训练的大型语言模型的出现引入了一种新的上下文学习能力[72]。这使它们能够使用提示处理各种任务,而无需进行微调。ChatGPT[73]是基于这一基础构建的第一个开创性应用。这包括生成代码、调用其他模型的工具或API等功能。许多研究正在探索使用像ChatGPT这样的LLMs调用视觉模型API来解决计算机视觉领域的问题,包括Visual-ChatGPT[74]。指导微调的出现进一步增强了这些模型对用户请求的有效响应和执行特定任务的能力。与自然语言处理(NLP)[75]中的影响类似,这些模型充当更通用的任务求解器,擅长通过利用它们从大量多模态数据中获得的广泛知识库和上下文理解来处理更广泛的任务范围。这使它们不仅能够理解视觉内容,还能以更符合人类理解的方式对其进行推理。许多作品还探索了在视频理解任务中使用LLMs,即Vid-LLMs。
以往的调查论文要么研究视频理解领域的特定子任务,要么关注视频理解之外的方法论。例如,[76]调查了用于通用视觉语言任务的多模态基础模型,包括图像和视频应用。[77]和[78]分别关注调查视频字幕生成和视频动作识别任务。其他视频理解任务,如视频问答和定位,未被考虑。此外,[79]和[80]调查了与视频相关的方法论-视频扩散模型和LLMs,缺乏对视频理解的集中研究。尽管这些调查论文对社区具有重要价值,但它们在基于大型语言模型的视频理解任务调查方面存在空白。本文通过对使用大型语言模型进行视频理解的综合调查来填补这一空白。
本调查报告的结构如下:第2节提供了全面的概述,强调利用LLMs的能力的方法,并详细介绍这些方法涉及的具体任务和数据集。在第3节中,我们深入探讨了最近利用LLMs进行视频理解的研究的细节,介绍了它们在该领域中的独特方法和影响。第4节对各种任务、相关数据集和评估指标进行了详细总结和分析。第5节探讨了在多个重要领域中应用视频LLMs的情况。调查在第6节总结,总结了主要发现,并确定了未解决的挑战和未来研究的潜在领域。
除了本调查报告,我们还建立了一个GitHub存储库,汇集了与使用大型语言模型(Vid-LLMs)进行视频理解相关的各种支持资源。这个致力于通过Vid-LLMs增强视频理解的存储库可以在Awesome-LLMs-for-Video- Understanding上访问。
图2:近几个月内使用大型语言模型(Vid-LLMs)进行视频理解方法的发展的全面时间线。
基础
视频理解是一个挑战,激发了许多创新任务来增强模型对视频解释能力。该领域已经从基础任务如视频分类和动作识别发展到涵盖更复杂的任务。这些任务包括为每个时刻创建准确和具体的文本描述以及总结视频的要点,从而概括其主题和关键叙述。它们提供了视频内容的详细和广泛的视角。
识别和预测。这些任务在视频理解中密切相关,重点关注视频中的时间连续性和进展。
字幕生成和摘要。这些任务侧重于更细致的细节,涉及为每个时刻创建准确和具体的文本描述,并概括视频的主题和关键叙述。它们提供了视频内容的详细和广泛的视角。
定位和检索。这些任务将视觉内容与文本上下文无缝链接,要求模型识别与提供的文本描述准确对应的特定视频或片段。
问答。这些任务强调模型不仅在理解视频的视觉和听觉组成部分方面的熟练程度,还在整合外部知识和推理能力以提供与上下文相关的答案方面具有能力。
随着挑战性任务的进展,模型的发展反映了它们所设计用于解决的任务的不断升级的复杂性。从处理有限帧数以将视频分类为预定义标签的经典方法,反映了狭窄的理解范围,到更复杂的模型的出现,视频分类的视野得到了显著扩展。现代大型模型现在能够处理数百帧,使它们不仅能够生成详细的文本描述,还能回答关于视频内容的复杂问题。这种能力的飞跃标志着从任务特定的经典方法到更通用和全面的方法的重大转变。将LLMs整合到视频理解中目前采用了四种主要策略:
图3:使用大型语言模型(Vids-LLM)进行视频理解的分类法。最近的Vid-LLMs可以分为四种主要类型:基于LLM的视频代理、Vid-LLMs预训练、Vid-LLMs指导微调和混合方法。其中,指导微调可以根据适配器的类型进一步分为三个子类:连接型、插入型和两者的组合。
基于LLM的视频代理。在这种方法中,LLMs充当中央控制器。它们指导视觉模型有效地将视频中的视觉信息转化为语言领域。这包括提供详细的文本描述和转录音频元素。
Vid-LLM预训练。这种方法侧重于利用监督或对比训练技术从头开始开发基础视频模型。在这个框架中,LLMs既是编码器又是解码器,提供了一种全面的视频理解方法。
Vid-LLM指导微调。这种策略涉及构建专门的微调数据集,以改进视觉模型与LLMs的集成,特别针对视频领域进行了定制。
混合方法。这些策略利用视觉模型在微调过程中提供额外的反馈。这种协作方法使模型能够获得超越文本生成的技能,如对象分割和其他复杂的视频分析任务。
接下来,我们将分解LLMs的关键组成部分,并更详细地研究它们如何与基础模型共同工作,以提高视频理解能力。
将LLMs与视觉集成
为了赋予LLMs解释视频内容的能力,有两种主要方法:
(i)利用预训练的视觉模型从视频中提取文本信息,并将其格式化为LLMs生成响应的提示。(ii)将LLMs与视觉模型结合使用微调或预训练策略创建一个可以处理视频内容的统一模型。
先进的大型语言模型如GPT-4具有作为控制器的能力,指导视觉模型执行特定任务。在这个框架内,视觉模型主要充当翻译器,将视觉信息转化为语言领域。视觉模型的常见选择包括提供整个帧或特定区域的文本描述的字幕生成模型,以及为视图中的实体提供标签的标记模型。这些模型通常在广泛的数据集上进行预训练,并且可以轻松地进行集成。
在微调方面,主要有两个流行的类别:
基于帧的编码器。这些编码器独立处理每个视频帧。这个类别中的大多数是 CLIP 的变体[107],因其出色的性能和多功能性而备受推崇。这些变体主要在补丁大小和输入分辨率上有所不同,趋向于使用更高的分辨率以增强性能。
时间编码器。时间编码器以 TimeSformer[46]为代表,将视频视为连贯的实体,强调内容的时间元素。除了利用预训练模型外,还有一些工作致力于从头开始开发基础视频模型,采用对比或监督预训练方法,详见第3.2节。
由于这些视频编码器的多样性,它们处理的输入视频长度可以有很大差异,从仅包含几帧的短片到包含数百帧的长视频。为了有效管理这种变化,使用了一个视频建模模块。该模块将帧级特征聚合成一个连贯的视频级特征。这种聚合的复杂性可以从简单的池化方法到更高级的基于内存的技术。
语言在视频理解中的作用
语言在视频理解中起着主要作用,主要包括两个方面:文本编码和解码。
对于文本编码,配备有编码器的语言模型(如 BERT[108]或 T5[109])在这个领域非常受欢迎。选择它们是因为它们的稳健性能和出色的适应性。在涉及问题或任务提示的场景中,生成的文本嵌入通常与视频嵌入合并,以创建解码器的输入。BLIP-2 模型[110]中使用的 Q-former 就是一个例子。然而,最近的进展,如 LLaMA[111],改变了这种方法。在这些模型中,文本和视频只是被标记化,然后直接输入解码器。
在文本解码方面,从专门针对不同任务的转换器模型转向预训练语言模型。这些大型语言模型的大小各不相同,BERT 家族中的一些模型参数达到数亿,而LLaMA家族[111]的模型参数可能达到数十亿。它们基于 Transformer 架构,在自回归框架下工作,预测序列中的下一个标记,这对于文本生成非常有效。在这个领域,LLaMA 家族,特别是像 Vicuna 这样的模型,脱颖而出。Vicuna[112]以其 7B/13B 的模型规模而闻名,尤其在文本解码任务中的可访问性和有效性方面。
其他模态
我们区分“音频”(指视频中的背景声音)和“语音”(包括视频中的口头内容)。这些元素通常独立处理。音频和语音通常分开处理,音频被视为一个单独的实体,而语音则被转录为文本[113]。另一方面,语音由专门的语音编码器处理,通常是预训练的语音识别模型,如 Whisper[114]。该模型将口头内容转录为文本,为 LLM 提供有价值的上下文信息。
训练策略
在将预训练的基础模型调整到各种视频理解任务时,通常会使用一个适配器模块,它既是(i)连接基础模型和 LLM 的桥梁,又是(ii)帮助预训练模型适应新任务而不丢失从预训练中学到的知识的模块。适配器通常是可学习的、参数高效的模块,可以添加到预训练模型中以扩展或调整其功能。适配器的常见应用是将来自不同模态的输入转换为文本领域,有效地连接不同的模态,同时保持预训练模型(如编码器和解码器)的参数冻结。在这个过程中,一个关键的挑战是以一种对 LLM 可理解的方式高效地将视觉内容转化为文本。流行的解决方案包括线性投影,将视觉特征的维度与文本特征对齐,以及交叉注意机制,如 Q-former,将视觉特征与相关的文本内容同步。
此外,适配器还用于定制 LLM 的输出,以适应特定任务,例如从多项选择题中选择答案。这个功能通常类似于 LoRA(低秩适应)模块[115]的作用,有效地微调模型的输出以适应特定任务的要求。
Vid-LLMs: 模型
在多模态大型语言模型(MLLMs)领域,我们见证了大型语言模型与各种数据模态的融合,从文本到图像,展示了它们的出色多功能性和适应性。这些多模态方法不仅增强了模型的理解和推理能力,还为人工智能的下一个进化飞跃奠定了基础:将LLMs与视频理解相结合。
鉴于LLMs在视频理解中的功能,我们将Vid-LLM方法分为以下几个类别:(1)基于LLM的视频代理,(2)Vid-LLM预训练,(3)Vid-LLM指令微调,以及(4)混合方法。
基于LLM的视频代理
本节探讨了基于LLM的不同视频代理,每个代理都有其独特的方法来整合多模态数据以增强视频分析。有些使用LLMs来利用其他基础模型作为解决任务的工具,而其他一些则利用LLMs来处理来自视觉、听觉和文本元素的转录,展示了它们在视频理解中的通用任务解决能力。
Socratic Models[81]。Socratic Models通过预训练模型和其他模块之间的基于语言的交互,无需进行新的训练或微调,将新任务形式化为语言交流。Socratic Models通过一系列结构化的、基于语言的提示将视觉、听觉和文本数据整合到一起,生成基于语言的世界状态历史。它通过计算距离度量来评估视频到文本的检索性能,该度量基于所有视频帧上的平均CLIP[107]属性。该模型支持处理语音,但不支持处理视频中的声音。
表1:按发布日期排序的视频理解模型与大型语言模型的比较。该表列出了每种方法的关键细节,包括训练帧数、视觉编码器、对音频信息的利用、模型适应方法、计算资源、所使用的具体大型语言模型以及相应的参数数量。用连字符(“-”)标记的条目表示在相应论文中未公开的细节。
Video ChatCaptioner[116]。Video ChatCaptioner是一种旨在生成详细和全面的时空描述视频的方法,旨在生成详细和丰富的视频描述。它通过ChatGPT[73]和BLIP-2[110]模型之间的对话来增强视频理解。ChatGPT作为提问者,负责从采样的帧中选择一个帧并生成问题。BLIP-2根据选择的视频帧提供详细的答案。随后,ChatGPT将对话综合成全面的视频字幕。Video ChatCaptioner的性能在MSVD[122]和WebVid[123]数据集上进行评估。它不支持处理声音或语音。
VLog[84]。VLog(Video as a Long Document)利用一系列预训练模型记录和解释视频的视觉和音频信息。这个套件包括用于图像字幕的BLIP2,用于基于区域的视觉字幕的GRIT[124],以及用于音频转录的Whisper。Whisper[114]特别擅长从视频中捕捉和转录语音为精确的文本,促进了详细的音频分析和提高的可访问性。然后,使用ChatGPT对聚合数据进行推理,综合和总结信息,以增强对视频内容的理解和交互。
ChatVideo[83]。ChatVideo是一个以轨迹为中心的多模态视频理解系统,将ChatGPT与各种视频基础模型(ViFMs)结合起来,对视频特征进行标记,进行用户交互,并处理真实世界的视频相关问题和场景。ChatVideo采用以轨迹为重点的方法,主要通过“轨迹”这个基本单元来解释视频数据,而不是传统的逐帧方法。ChatVideo使用Whisper和Wav2Vec 2.0来处理音频和语音。总体而言,ChatVideo通过以轨迹为中心的处理方式进行交互和多模态视频理解,通过考虑外观、动作和音频方面以及用户驱动的查询交互,实现了丰富的视频分析。
MM-Narrator [86]. MM-Narrator 是一个基于 GPT-4 的系统,专门用于生成长篇视频的音频描述(AD)。它通过结合视觉特征、图像标题和字幕中的角色对话等多模态信息来处理视频理解任务。该模型以自回归方式运行,使用增强记忆的生成过程来保持上下文连贯性和角色重新识别。它在 MAD-eval 数据集上进行了评估[100],重点关注 AD 生成性能。该系统采用了基于复杂度的多模态上下文学习方法和基于片段的 GPT-4 评估器。MM-Narrator 支持处理视觉和听觉输入,包括声音和语音,以实现全面的视频理解。
MISAR [87]. 增强现实多模态教学系统(MISAR)架构利用 GPT-3.5 的推理能力,通过从背景知识中获取上下文信息来改进视频文本标题,并设计用于处理各种类型的输入。这包括分析视频标题,该标题由预训练的视频到文本 LLM 模型生成,该模型由视频 Transformer [88] 作为编码器和 GPT-2 [127] 作为解码器组成,解释食谱说明和用户语音,通过自动语音识别(ASR)[128]将其转换为文本,并使用文本到语音(TTS)[129] 作为用户界面系统生成语音。GPT-3.5 通过改进视频到文本模型的初始输出来显著提高视频标题的质量,通过先进的语言处理能力增强相关性和准确性。将感官输入与 LLM 的分析能力相结合,显著增强了增强现实环境中的状态估计能力。实证结果显示,MISAR 生成的标题与参考食谱之间的语言对齐得到了显著改善,特别是在描述中等长度的食谱步骤时更为明显。GPT-3.5 在字幕生成过程中的介入对此有所贡献。然而,当前的 MISAR 配置存在一些限制。视频到文本模型的错误可能会在系统中传播,并且对环境音频元素的理解不足[87]。MISAR 使用以自我为中心的视频和语音输入,以及来自语言模型的上下文数据,以改进增强现实环境中的状态估计。这种方法突出了 MISAR 在通过复杂的视觉、听觉和上下文信息综合促进用户执行物理任务方面的潜力。
Vid-LLM 预训练
LaViLa [88]. LaViLa 可以处理自我中心视频中的多个多模态任务,包括多项选择问题、多实例检索、动作识别和自然语言查询。它通过使用 Narrator 和 Rephraser(均基于 LLM)来对视频进行建模。Narrator 是一个 GPT-2 [127],在每个 Transformer 解码器层之前使用额外的交叉注意力模块将文本与视觉信息关联起来,自动生成视频剪辑的密集文本叙述,侧重于详细和多样化的描述。Rephraser 是另一个基于 T5-large 的 LLM,通过改写来增强这些叙述,提高文本的多样性和覆盖范围。该模型在 Ego4D 数据集上进行了训练,并在 Epic-Kitchens、Ego4D、EGTEA [130] 和 CharadesEgo 数据集[131]上进行了评估。该模型不支持处理视频中的音频或语音。
Vid2Seq [89]. Vid2Seq 用于密集视频字幕生成。它将 LLM 与特殊的时间标记结合起来,同时预测视频中的事件边界和文本描述。它将视频帧特征与文本标记连接成一个序列。Vid2Seq 在 YT-Temporal-1B 数据集中预训练了大量未标记、未修剪的叙述视频,并利用转录的语音中的伪事件边界和字幕进行微调和评估。它在 YouCook2 [132]、ViTT [133]、ActivityNet Captions、MSR-VTT 和 MSVD 上进行了密集视频字幕生成、事件定位、视频段落字幕生成和视频剪辑字幕生成的微调和评估。该模型不适用于自然音频输入,但可以通过 ASR 处理视频中的语音。
VAST [90]. VAST 模型可以处理多模态任务,包括视频字幕生成、视频问答、视频检索和音频字幕生成,通过将所有模态(视频、音频、语音和语言)转化为文本,并使用 LLM 进行总结或修订以适应不同的任务或输入。与 Vid-LLMs 代理不同,该模型还在 VAST-27M 数据集上进行了进一步的预训练,该数据集包含了 2700 万个不同的视频剪辑,采用了不同的预训练目标:全模态视频-字幕对比/匹配/生成损失。它在一系列数据集上进行了微调和评估,包括 YouCook2、TVC [134]、VALOR-32K [135]、VATEX [136]、MSR-VTT、MUSIC-AVQA、ActivityNet-QA、MSR-VTT-QA、TGIF-FrameQA、DiDeMo、Flickr [137]、ClothoV1 [138]、ClothoV2 [138] 和 AudioCap [139]。
Merlin [91]. Merlin 模型通过将图像和视频的视觉标记整合到语言序列中,利用 Foresight Pre-Training (FPT) 和 Foresight Instruction-Tuning (FIT) 来处理视频理解任务,包括目标跟踪、视频引用、视频关系和未来推理。它在 LAION400M [140]、Object365 [141]、OpenImage [142]、LaSOT [143]、GOT10K [144]、MOT17 [145]、DanceTrack [146]、SOMPT22 [147]、Ref-COCO [148]、VCR [149]、LLaVA-665K [150]、MultiSports [151]、TITAN [152] 和 STAR [153] 等各种数据集上进行了评估。该模型不支持处理声音或语音输入。
Vid-LLM 指令微调
通常,对预训练的大型模型进行微调需要大量计算资源。由于计算资源有限,微调大型模型时并不会更新所有参数[115, 154, 155],而是更新一些适配器的参数。在 Vid-LLMs 的指令微调中,通常使用两种类型的适配器:连接适配器和插入适配器。有些方法还将这两种类型的适配器混合使用。连接适配器通常放置在视觉主干和 LLM 之间,主要用于对齐视觉和文本语义,而插入适配器通常插入到 LLM 中。
使用连接适配器进行微调
连接适配器有几种类型:线性投影层、多层感知机(MLP)、交叉注意力层、Q-former 及其组合,通常用于对齐不同的模态。
Video-LLaMA [117]. Video-LLaMA 是一个多模态框架,通过整合视觉和听觉内容的理解能力,增强了 LLM 在视频理解方面的能力。该框架通过 Video/Audio Q-former [110] 和 imageBind [156] 等先进技术来克服捕捉时间上的视觉变化和整合音频-视觉信号的挑战。特别是,Video-LLaMA 包括 Vision-Language (VL) 和 Audio-Language (AL) 两个分支。VL 分支使用 ViT-G/14 作为其视觉编码器,BLIP-2 Q-Former 作为视频 Q-Former,并在视频编码之前使用帧嵌入层进行视频编码。VL 分支已在 Webvid-2M [123] 和 LLaVA [157] 中的约 595K 个图像-文本对上进行了预训练,并通过 MiniGPT-4 [158]、LLaVA [157] 和 VideoChat [82] 的数据进行了微调。与此同时,AL 分支使用两层音频 Q-Former 和 ImageBind-Huge 编码器,专注于音频表示。因此,VL 和 AL 分支使 Video-LLaMA 能够感知、理解和生成基于视频中丰富而复杂内容的有意义的响应,标志着在音频-视觉语言模型领域的重大进展。然而,该模型可以处理自然声音音频输入,但不支持语音输入。
视频-ChatGPT [98]。视频-ChatGPT是一种专门用于理解视频的模型,特别适用于涉及视频内容的空间、时间和动作组成部分的任务。它使用修改过的CLIP ViT-L/14视觉编码器来提取时空特征,然后将这些特征与语言嵌入对齐,以便集成到LLM中。这个过程使得视频-ChatGPT能够将详细的视频特征输入到LLM中。此外,该研究还通过人工辅助和半自动注释方法创建了一个包含10万个视频指令对的新数据集。这个数据集包括了来自ActivityNet-200数据集[164]的丰富的视频-字幕对,为有效训练提供了多样性和复杂性。半自动化的过程使用了BLIP-2[110]和GRiT[124]等模型进行密集字幕生成,并通过GPT-3.5进行后处理。该模型的微调利用了提出的新数据集。关于声音或语音输入,视频-ChatGPT不支持这些功能。
Macaw-LLM [95]。Macaw-LLM是一种多模态语言模型,通过整合视频、图像、文本和音频数据来处理视频理解任务。它使用视觉模态编码器提取视频特征,可能采用类似CLIP-ViT-B/16的框架。然后,这些提取的特征通过一个独特的对齐模块进行处理和对齐,使其适合输入到语言模型中。对于微调,Macaw-LLM使用一步指令微调方法,简化了适应过程,并确保跨模态的一致对齐。Macaw-LLM的评估涉及到Alpaca指令数据集(用于文本指令)、COCO[165](用于图像指令)以及Charades和AVSD数据集(用于视频指令)。关于声音或语音输入,Macaw-LLM支持音频作为其多模态方法的一部分,目前将音频输入与视频指令数据相关联。该模型正在积极开发中,以包括一个更专注的音频指令数据集。
LLMVA-GEBC [96]。LLMVA-GEBC模型是为通用事件边界字幕生成(GEBC)[166]而设计的,它将先进的特征提取器与LLM相结合,实现精确的视频字幕生成。它使用CLIP-ViTG[167]、Q-former[110]和其他特征提取器(如CLIP[107]、Omnivore[168]和VinVL[169])来处理主要和辅助视觉特征。该模型生成带有边界嵌入和位置编码的视频查询标记。对于字幕生成,它利用LLM,具体来说是OPT[170],构建和解释提示,实现对视频事件的准确和上下文相关的字幕生成。这种创新的方法在CVPR 2023 GEBC竞赛中取得了显著的成功。该模型不支持处理声音或语音输入。
mPLUG-video [118]。mPLUG-video模型是为视频理解任务而设计的,处理视频分类、视频字幕生成和视频-文本检索。它的视频建模方法从基于TimeSformer的视频编码器开始,从稀疏采样的帧中提取特征,然后使用视觉抽象模块来减少序列长度。然后,将这些处理过的特征作为语言解码器的输入,使用冻结的、预训练的中文GPT-3[171]。对于微调,mPLUG-video利用Youku-mPLUG数据集[118]。在评估中,它在视频分类和视频字幕生成任务中表现出优越的性能。然而,该模型不支持处理声音或语音输入。mPLUG-video专注于视觉和文本元素的视频理解,不支持音频输入。
MovieChat [102]。MovieChat主要关注长视频的处理和理解,采用基于长短注意力的记忆机制从大量的视频内容中提取信息。MovieChat利用冻结的视觉模块,使用非重叠滑动窗口从长视频中提取帧信息。帧按顺序放入短期记忆中。一旦短期记忆达到预定的长度限制,最早的帧标记将被弹出并合并到长期记忆中。对于长期记忆的处理,MovieChat遵循ToMe[172]进行记忆整合方法,该方法涉及使用余弦相似度评估相邻帧,并合并相邻帧中最相似的标记。在推理过程中,MovieChat可以以全局模式运行,只将来自长期记忆的信息输入到LLMs中进行推理。或者,在断点模式下,输入到LLMs中的信息不仅包括长期记忆,还包括当前帧和当前短期记忆的信息。MovieChat的视觉模块使用EVA-CLIP的ViT-G/14,而LLMs使用GPT-3.5和Claude。此外,MovieChat还引入了一个新的数据集MovieChat-1K,用于长视频理解任务,包含了从各种电影和电视剧中获取的1K个高质量视频片段,并附带14K个手动注释。
LLaMA-VQA [103]。LLaMA-VQA是为视频理解任务中的视频问答(VideoQA)而设计的。LLaMA-VQA通过预测视频、问题和答案的组合来解决LLM中的语言偏见问题,确保对视觉内容和文本查询的平衡考虑。该模型擅长处理视频中的时间和因果推理任务。在建模过程中,它翻转了*< V, Q, A >*三元组中的源对和目标标签,促进对VideoQA场景中复杂关系的深入理解。该模型使用CLIP对每个帧进行编码,然后使用多层感知机将帧标记映射到LLMs的潜空间中。它在五个具有挑战性的VideoQA基准测试上进行了评估,表现优于基于LLM和非LLM的模型。该模型在当前上下文中不支持处理声音或语音输入。
Video-LLaVA [104]。Video-LLaVA通过将图像和视频的视觉表示统一到一个单一的语言特征空间中进行投影,在各种视频理解任务中表现出色。具体而言,它在视觉信息编码的流程中使用了LanguageBind[120]的冻结视觉编码器,然后使用投影层将LanguageBind的编码器与LLMs连接起来。该模型在混合图像和视频的数据集上进行训练和评估,在MSRVTT、MSVD、TGIF[174]和ActivityNet等基准测试中展现出优秀的结果。然而,该模型不专门支持处理声音或语音输入,主要关注于视觉数据。
Chat-UniVi [99]。Chat-UniVi模型能够处理各种视频理解任务,如细节导向、上下文理解、时间理解和一致性。
与直接将所有视频信息发送到LLMs的其他方法相比,Chat-UniVi模型通过使用动态视觉标记来表示空间和时间方面,对视频进行建模。在视觉特征编码阶段,使用多尺度表示使LLMs能够感知高级语义概念和低级视觉细节。对于视频理解,它利用基于ActivityNet、MSRVTT-QA、MSVD-QA、TGIF-QA[175]、FrameQA[175]和ActivityNet-QA的数据集,并使用GPT-3.5模型进行评估。该模型还使用了来自COCO和CC3M-595K等数据集的图像-字幕对进行训练。在视频理解的上下文中,该模型不支持处理声音或语音输入。
AutoAD II [100]。AutoAD II是专为电影中的音频描述(AD)任务而设计的,重点是识别适合插入AD的时刻、角色识别和AD文本生成。它通过结合CLIP视觉特征、角色库(包括角色名称和演员图片)和带有门控交叉注意机制的GPT-2来对视频和音频进行建模,以进行文本生成。用于训练和评估的关键数据集包括MAD(电影音频描述)、AudioVault-AD、WebVid和MovieNet。该模型并不明确支持声音或语音输入,但利用从音频中派生的文本表示进行训练和评估。它的主要应用是通过改进的AD提高电影对视觉障碍观众的可访问性。
使用插入式适配器进行微调
在视频指导调整中,通常会在LLM中插入插入式适配器。与连接式适配器相比,插入式适配器可以更好地使LLM能够推广到新的任务。
Otter [105]。Otter模型是一种创新的多模态模型,旨在增强上下文学习和指令遵循,基于OpenFlamingo [177]框架。它利用特别设计的MIMIC-IT数据集,将图像-指令-答案三元组与上下文相关的示例相结合,促进了强大的指令理解能力。Otter模型使用预训练的语言和视觉编码器以及可调节的组件进行训练,可训练参数约为13亿个。特别是,Otter模型采用了LLaMA-7B [111]语言编码器和CLIP ViT-L/14视觉编码器。该模型在多模态、上下文学习方面取得了重大进展,适用于各种研究和实际应用。该模型不支持处理声音或语音输入。
VideoLLM [106]。VideoLLM是一个多功能框架,将LLM应用于各种视频理解任务,包括在线推理、未来预测、记忆检索和密集预测。该模型使用各种视觉编码器(如I3D、CLIP和SlowFast)提取视频特征,这些编码器在ImageNet [178]、Kinetics [25]和Epic-Kitchens [179]等数据集上进行了预训练。然后,通过模态编码器和语义翻译器处理这些特征,将其转换为与LLM兼容的令牌序列。对于微调,VideoLLM采用了三种方法:基本微调、部分微调和参数高效微调(PEFT)技术,如LoRA [115]、Prompt微调和前缀微调。该模型的有效性是使用Epic-Kitchens、Ego4D等数据集进行评估的。VideoLLM不支持这些输入。
使用混合适配器进行微调
VTimeLLM [93]。VTimeLLM是一种专为高级视频理解任务设计的新型模型,特别擅长于时间视频定位和密集视频字幕。它通过将视觉编码器(CLIP ViT-L/14)和视觉适配器集成到LLM框架中,将视觉信息转换为类似文本的嵌入。该模型经历了三个阶段的边界感知训练过程。在第一阶段(特征对齐)中,通过图像-文本训练将视觉特征与LLM的语义空间对齐;在第二阶段(边界感知)中,作者根据模板将多事件数据集转换为QA格式,旨在训练VTimeLLM具有时间边界意识并理解边界内的事件。在第三阶段(指令微调)中,作者创建了一个对话数据集,用于指令微调,旨在将VTimeLLM与人类意图对齐,并实现更精确的视频时间理解。具体而言,三个阶段的数据集分别是用于特征对齐的LCS-558K,用于边界感知的InternVid-10M-FLT [180],以及用于指令微调的ActivityNet Captions [181]和DiDeMo [182]。然而,VTimeLLM并没有明确设计用于处理声音或语音输入,主要关注视频理解的视觉和文本方面。
GPT4Video [93]。GPT4Video可以处理视频理解和生成任务,包括视频问答、视频字幕和文本到视频生成。它使用带有交叉注意力层的抽象器来沿着时间和空间轴压缩视频信息。作为可学习的适配器,它将视频特征与时间和空间令牌连接起来,并通过LoRA在VideoChat-11k [82]数据集上微调冻结的LLaMA模型,用于特征对齐,并使用GPT4Video-50k数据集进行指令遵循和安全对齐。对于视频生成部分,GPT4Video利用了文本到视频模型库中的模型来生成数据。该模型使用MSRVTT-QA和MSVD-QA数据集进行视频问答任务的评估,使用MSR-VTT数据集进行视频字幕和文本到视频生成任务的评估。该模型不支持音频输入(自然语言或语音)。
混合方法
混合方法涉及将微调和基于LLM的视频代理模型相结合,同时具有两种方法的优势。
VideoChat [82]。VideoChat是一种创新的以聊天为中心的视频理解系统,通过可学习的神经接口将视频基础模型与大型语言模型集成在一起。它包括两个主要组件:VideoChat-Text将视频内容转换为文本格式进行分析,VideoChat-Embed是一个端到端模型,用于基于视频的对话,将视频和语言模型结合起来,以增强时空推理和因果推断的性能。该系统使用一个专门设计的以视频为中心的指令数据集进行微调,展示了多样化视频应用的巨大潜力。
PG-Video-LLaVA [92]。PG-Video-LLaVA的评估涉及基于视频的生成和问答基准测试,包括针对视频对象定位的新引入的基准测试。摘要中未指定用于微调和评估的数据集。该模型通过将音频信号纳入其视频理解框架中,支持处理声音或语音输入。
任务、数据集和基准测试
在LLM的视频理解领域,各种任务可以分为:1. 识别和预测,2. 字幕和摘要,3. 定位和检索,4. 问答。
不同的任务关注视频理解的不同方面。识别和预测通过识别和预测视频中的事件和动作来奠定基础,为视觉内容及其潜在未来发展提供基本理解。字幕和描述通过将视觉数据转化为自然语言,使视频对更广泛的受众可访问和可理解,并增强内容的可发现性。定位进一步细化这个过程,通过建立特定视频元素与其文本描述之间的直接关联,确保准确和详细的理解。最后,问答处理交互方面,使系统能够回答关于视频内容的具体查询。这可能涉及解释视频中的事实或解释视频本身发生的情况。
识别和预测
视频理解的基本任务之一是理解所描绘的动作和事件。识别主要关注在视频中准确检测和分类正在发生的动作。这涉及解释和理解视频序列中展开的人类动作,从而使机器能够正确分类这些动作。示例任务包括视频分类、动作检测和活动识别。此外,这个过程可以很容易地扩展到时间定位,不仅要识别特定的动作,还要确定它们在视频中的持续时间和顺序,这将在第4.3节中详细介绍。
另一方面,预测则根据从视频中得出的当前上下文来预测未来事件或动作。这种预测能力在动态环境中至关重要,因为它有助于预测潜在的未来情景,从而增强决策过程。示例任务包括短期和长期动作定位,根据预测序列的持续时间而有所不同。
数据集概述
属于这个类别的数据集通常具有视频片段的标签和预先确定的有限数量的标签,也适用于下面详细介绍的检索任务。
Charades [183]。该数据集以日常家庭活动为中心。由于其视频中的逼真场景和重叠活动的复杂性,它非常突出。
YouTube8M [184]。这是一个包含数百万个YouTube视频ID和相关标签的庞大数据集,涵盖了各种类别的真实世界视频内容。
ActivityNet [164]。设计用于识别、检测和时间定位活动,涵盖了广泛的人类活动,并提供了详细的时间注释。
Kinetics-GEBC [166]。这是原始Kinetics数据集的扩展,提供了带有描述性标题的精细注释的动作片段,增强了对动作理解的深度。
Kinetics-400 [27]。该数据集涵盖了400个动作类别的YouTube视频URL,对于开发大规模动作识别模型非常重要。
评估指标
根据具体的任务和数据集使用不同的评估指标:
Top-k准确率。在单标签动作识别或单步动作定位中使用,该指标评估正确的动作是否在前"k"个预测中。考虑到类别不平衡,通常更倾向于使用类均值Top-k准确率进行更细致的评估。
平均精度均值(mAP)。在多标签识别或多步预测场景中应用,其中未来动作被独立处理,mAP评估跨多个标签的预测的精度。
字幕和描述
超越简单的识别,生成视频内容的文本描述提供了对视频内容更丰富、更详细的理解。这些描述不仅捕捉了单个帧中的可见元素,还将事件序列编织在一起,揭示随时间展开的潜在叙事或含义。这个过程通常需要多模态的理解,其中音频元素与视觉线索一起起着至关重要的作用,以充分把握内容的背景和意义。
这个领域涵盖了一系列任务,其中视频字幕是一个重要的例子。这个任务分为各种形式,如密集字幕、视频片段字幕和在线字幕,每种形式都处理视频解释的独特方面。
与提供详细描述的字幕相比,摘要侧重于将核心内容浓缩成简洁的格式。它的主要目标是将视频的精髓浓缩成简短的摘要,视频摘要是该领域的一个显著例子。
数据集概述
已经开发了各种数据集来支持这些任务,重点关注不同方面,从描绘人类活动到对程序知识的细致理解。这些数据集还涵盖了各种内容,包括基于网络的GIF到详细的电影描述。
Microsoft Research Video Description Corpus (MSVD) [122]. 这个数据集包含1,970个视频,重点关注单一活动片段,并带有多语言字幕。每个片段都附有多个众包句子,描述视频中的动作,生成简短、通用的短视频剪辑描述。
Microsoft Research Video-to-Text (MSR-VTT) [122]. 这个大规模数据集包含超过40小时的视频内容,10,000个来自20个类别的视频片段,总共有200K个片段-句子对。这对于训练大参数模型非常有价值。
Tumblr GIF (TGIF) [174]. 这是一个收集了来自Tumblr的100K个动画GIF的数据集,附带了120K个句子的注释。
Charades [183]. 这个数据集包含了日常室内活动的视频,由来自三个大洲的人们拍摄,提供了27,847个视频描述和各种场景,用于视频字幕挑战。
Charades-Ego [131]. 类似于Charades,但包含了68,536个活动在7,860个视频中的第一人称和第三人称视角记录,为活动分析提供了独特的视角。
ActivityNet Captions [181]. 这个数据集是原始ActivityNet的扩展,专为识别任务而设计。它包含20,000个视频,每个视频附有100,000个详细的句子。它的显著特点是对每个视频的全面覆盖,提供了对复杂视频理解和识别任务非常有价值的广泛注释。
HowTo100m [185]. 超过1亿个未经筛选的教学视频,使用MIL-NCE进行了独特的修正,为各种视频理解任务提供了强大的数据集。
Movie Audio Descriptions (MAD) [186]. 包括来自650部电影的约384K个句子和61.4K个唯一单词,重点提供给视觉障碍者的音频描述,在后期处理中几乎没有人工干预。
YouCook2 [132]. 这是一个包含2,000个来自YouTube的烹饪视频的数据集,附带了逐步说明的注释,专门用于烹饪领域的程序理解。
MovieNet [187]. 为电影理解和推荐系统研究提供了全面的电影关键帧和相关元数据的集合。
Youku-mPLUG [118]. 这是最大的公共中文视频语言数据集,专为中文观众的视频分类预测、视频文本检索和视频字幕而设计。
Video Timeline Tags (ViTT) [133]. 包含了带有短时态局部描述的教学视频,对于视频摘要和指导生成非常有用。
TVSum [188]. 这是一个视频摘要的关键基准数据集,包括50个不同类型(如新闻和纪录片)的长视频。每个视频都附有从用户研究中得出的帧级重要性分数,非常适合训练模型来识别和总结关键的视频片段。
SumMe [189]. SumMe数据集包含较短的用户生成视频,涵盖了各种活动,如假期和体育。它侧重于多样化和非结构化内容,附带有人工创建的摘要注释,非常适合处理各种类型的视频的算法。
VideoXum [190]. 这个数据集将传统的单模态视频摘要任务扩展到跨模态视频摘要任务,涉及生成具有语义连贯性的视觉和文本摘要。VideoXum是在ActivityNet Captions基础上构建的丰富大规模数据集。它包含14K个长视频和140K对齐的视频和文本摘要。
评估指标
这个领域的评估指标与自然语言处理中的得分有相似之处。
双语评估助手 (BLEU). 最初用于机器翻译,BLEU主要关注词汇相似性,评估生成的字幕中有多少单词和短语出现在参考字幕中。它通过计算机生成的文本和参考文本之间n-gram(n个项目的词序列)的重叠来评估文本的质量。
带有显式排序的翻译评估度量 (METEOR). METEOR也是为机器翻译设计的,它关注语义准确性和灵活匹配(超越字面匹配),考虑同义词和释义,因此比BLEU提供了更细致的评估。它根据单词和短语之间的精确、词干、同义词和释义匹配来评估翻译。
面向回顾评估的召回度 - 最长公共子序列 (ROUGE-L). ROUGE-L强调内容的流畅性和结构,通过评估最长共享的单词序列来关注序列而不是单个单词。它测量系统生成的摘要与一组参考摘要之间的最长公共子序列,重点关注单词的最长共同出现序列。
基于共识的图像描述评估 (CIDEr). 基于图像字幕,CIDEr通过考虑与共识描述集合的共同性来衡量生成的字幕与一组参考字幕的相似性。CIDEr评估字幕的相关性和特异性,强调对图像(或视频)更具信息量和独特性的术语。
语义命题图像字幕评估 (SPICE). SPICE通过将字幕与人类参考进行比较来评估字幕质量,重点关注语义理解和准确性。它将字幕分解为场景图,详细评估其事实正确性和与图像内容和动作的对齐情况。
词移距离 (WMD). WMD是文本文档之间的距离度量。它基于一个原则,即相似的文档具有相似的词分布,评估一个文档需要多少改变才能类似于另一个文档。在视频字幕中,WMD用于评估生成的字幕与参考字幕的相似程度,重点关注整体分布和词的选择,而不是精确的序列。
定位和检索
视频定位侧重于根据给定的描述识别和定位视频中的特定时刻或事件。它涵盖了各种任务,每个任务都针对视频内容和文本信息之间的不同方面。视频定位中的关键任务包括:
-
视频检索:这个任务涉及将视频内容与文本描述对齐,并准确检索广泛视频数据集中类似活动或时刻的多个实例。挑战在于区分看似相同的实例,并根据文本线索确保检索的精确性。
-
时间定位:目标是在视频中定义与给定文本描述精确对应的时间边界。它要求模型解释和匹配特定的视频片段与文本中的叙述或描述元素,重点关注视频内容的时间方面。
-
空间时间定位:这要求模型在视频中定位和突出显示空间区域和时间边界,类似于识别空间-时间管道,与指定的文本查询准确对应。它涉及将空间意识与叙事背景整合在一起,确保识别的实体与提供的文本描述准确对齐。
数据集概述
具有时间注释的数据集适用于构建检索和时间定位任务。要创建空间-时间定位任务,数据集通常需要注释,如对象边界框、对象的关联语义含义以及场景内它们之间的关系。
Epic-Kitchens-100 [191]. 这是一个包含厨房活动的第一人称视角视频的广泛收集。这个数据集对于研究日常厨房场景中的多实例检索和动作识别非常重要,提供了对人物-物体交互的独特视角。
Ego4D-MQ和Ego4D-NLQ [192]。作为更广泛的Ego4D项目的一部分,这些数据集专注于第一人称视频中的空间和时间定位。这些是推动自我中心视觉和交互式AI系统研究的重要资源,强调了摄像机佩戴者的主观视角。
Vid-STG [193]。为时空定位量身定制的Vid-STG使模型能够在视频中同时定位和识别对象或动作的空间和时间位置,代表了在AI系统中整合时空理解的重要一步。该数据集对于增强AI对时空动态的理解以及促进更加综合和全面的AI系统的发展至关重要。
CharadesSTA [194]。CharadesSTA数据集通过提供将动作与精确时间段相关联的注释视频,专注于时间定位。它促进了用于动作定位的先进模型的开发,从而实现更准确和上下文感知的视频分析。CharadesSTA数据集在Charades数据集的基础上添加了句子级的时间注释。
DiDeMo [195]。DiDeMo代表“Distinct Describable Moments”,侧重于视频中的时间定位,并强调将特定视频片段与自然语言描述相关联。该数据集有助于提升模型解释和与时间视频内容同步的能力,利用自然语言作为理解的桥梁。
评估指标
检索任务的评估指标与典型分类任务中使用的指标相似,包括召回率和平均准确率(mAP),如第4.1.2节所述。
在时空定位的背景下,交并比(IoU)已经被改进,用于衡量预测和真实时间边界之间的重叠,以及物体定位中的边界框重叠。较高的IoU表示两个区间之间的匹配更接近,IoU为1.0表示完全匹配。平均IoU(mIoU)被计算为测试集中所有注释的时间IoU的平均值。
问答
在视频理解中添加更多的分析处理,视频问答是一个需要系统回答关于视频内容的问题的任务。这个过程涉及更深入的分析处理,可以广泛地分为两种主要类型:多项选择问答和开放式问答。
多项选择问答。这个任务为模型提供了一系列可能的答案供每个问题选择。模型在这里的挑战是准确地从给定的选项中识别出正确的答案。这种方法测试了模型从一组选择中识别和选择最相关信息的能力。
开放式问答。与更结构化的多项选择格式不同,开放式问答提供了更广泛的可能性。这种类型可以以各种形式呈现,例如分类、生成或回归,根据数据集的具体要求进行调整。
传统上,开放式问答被视为多类别分类任务。在这种设置中,模型将视频-问题对分类为预定义的一组全局答案。然而,随着大型语言模型(LLMs)在自然语言处理(NLP)中的日益主导地位,人们开始将开放式问答视为生成任务。在这种现代方法中,模型利用视频内容作为背景上下文主动生成答案。
数据集概述
最初设计用于详细字幕的数据集已经被重新用于视频问答(VideoQA)任务,例如MSVD-QA、MSRVTT-QA、TGIF-QA、ActivityNet-QA、Pororo-QA和TVQA。这些数据集不仅在视频来源上有所不同,而且在提出的问题类型上也有所不同。一些数据集主要关注基于内容的问题,而其他数据集则需要更深入的分析方法,涉及对视频内容的逻辑和叙述的推理。
MSVD-QA [160]。基于MSVD,该数据集通过添加与视频内容相关的问题-答案对来扩展。这个改变将重点从字幕生成转移到理解和回答关于视频内容的问题。
MSRVTT-QA [160]。MSRVTT-QA专为更受控制的视频问答而设计。它的优势在于详细和叙述式的视频描述,为问答任务提供了丰富的上下文。
TGIF-QA [175]。对于TGIF-QA,该数据集通过增加强调时间推理和理解重复动作的问答对来进行扩充。这种适应需要创建用于测试的问题。
ActivityNet-QA [161]。源自ActivityNet数据集,该数据集以其大量的长视频库而闻名。与其他可能专注于较短、更分段内容的QA数据集不同,ActivityNet-QA挑战模型理解和解释复杂的连续活动和故事情节。
Pororo-QA [196]。Pororo-QA在使用动画儿童故事方面独具特色,特别是“小企鹅宝乐齐”系列。它提供了丰富的叙事结构和简单的语言,非常适合研究基于故事的视频理解和问答。
TVQA [197]。TVQA通过使用长篇电视剧集,结合视觉和文本(字幕和剧本)信息,脱颖而出。它提供了一个复杂的多模态挑战,要求对复杂的情节和角色互动进行理解。
评估指标
多项选择问答和开放式问答(分类):这里主要使用的指标是准确率。开放式问答(生成):对于系统生成答案的任务,通常使用在字幕生成中常用的指标。例如BLEU、METEOR、ROUGE和CIDEr。WUPS(Wu和Palmer相似度分数):此外,WUPS指标是评估开放式问答中答案的有价值工具。WUPS是一种更柔和的准确度度量,考虑了单词之间的同义词和语义相似性。它以WUP分数为基础来衡量单词相似性。在实践中,WUPS分数通过基于WordNet的单词相似性来提供对生成答案质量的细致评估。在可能存在一系列语义上相似的答案被认为是正确的情况下,该指标特别有用。
视频指令调优
本小节介绍了可以用于增强Vid-LLM模型视频指令调优的多样化数据集。它强调了这些数据集的重要性,这些数据集从用户注释的视频到多模态的视频文本配对都可以用于训练模型,以准确解释和生成基于视频的指令。这些数据集的多样性和复杂性对于开发AI助手、交互式媒体和机器人导航系统等领域中理解和执行视频指令至关重要。
预训练数据集
为了将视觉组件与语言领域整合起来,通常会使用大规模的视频到文本数据集。这些数据集作为监督预训练的基础,将模态对齐而不针对特定任务。
VidChapters-7M [198]。VidChapters-7M是一个用户注释的视频章节数据集,包含817K个视频和7M个章节,旨在解决将长视频分割成章节的主题研究不足的问题,以便用户可以快速查找感兴趣的内容。该数据集以可扩展的方式从在线视频中自动创建,涉及到无需任何额外手动注释的用户注释章节的抓取。
VALOR-1M [135]。VALOR-1M是一个大规模高质量的三模态数据集,包含1M个可听视频和人工注释的视听字幕。该数据集在音频概念和音频视觉字幕方面丰富,适用于三模态模型的预训练和基准测试。VALOR-1M数据集使得能够训练能够同时理解和生成视觉、音频和语言模态内容的模型,从而在各种下游任务上获得强大的性能。
Youku-mPLUG [118]。Youku-mPLUG是一个大规模的中文视频-语言预训练数据集和基准测试集,包含1000万个视频-文本对用于预训练和30万个用于下游基准测试的视频。该数据集从优酷,一个著名的中国视频分享网站收集,并经过安全、多样性和质量的筛选。Youku-mPLUG附带了人工注释的基准测试集,涵盖了跨模态检索、视频字幕和视频分类等方面,以全面评估视频-语言模型和下游应用。
InternVid [180]。InternVid包含超过700万个视频,总计近760,000小时,产生了2.34亿个视频片段,伴随着总计41亿个单词的详细描述。它的核心贡献是开发了一种可扩展的方法来自动构建具有高质量的视频-文本数据集,并展示了其在大规模学习视频-语言表示方面的有效性。
微调数据集
在将各种模态与上述数据集对齐后,以下数据集将包含各种子任务,并将它们形成视频教学微调。为了创建这样的数据集,使用了各种视频模型来提取文本信息,然后由GPT系列等先进的语言模型利用这些信息生成问题和答案的序列。这个过程旨在将推理能力注入到视频理解模型中,从而提高它们在下游任务中的性能。
多模态上下文指导微调(MIMIC-IT) 这个数据集包含280万个多模态上下文指导-回应对和220万个唯一指导,其中包含多个图像或视频作为输入数据。该数据集的视频子集包括来自各种来源的片段,例如Ego4D,专注于第一人称视频内容,以及TVCaption,以其与电视剧相关的内容而闻名。
VideoInstruct100K 由Video-ChatGPT引入[98],该数据集包含1万个高质量的视频指导对,主要来自ActivityNet Captions数据集。它使用各种模型来提取和描述视觉内容:BLIP-2用于帧标题,GRiT用于详细的场景对象描述,Tag2Text用于关键帧标记。GPT-3.5通过为四个关键任务生成问题-答案对进一步丰富了数据集:1.详细描述,2.总结,3.创造性和生成性任务,4.对话。
应用领域
Vid-LLMs通过提供先进的视频和语言处理能力,革新了各个行业。本节概述了它们的多样化应用,展示了Vid-LLMs在各个行业中广泛而深远的影响。
媒体和娱乐
在线视频平台和多媒体信息检索。 Vid-LLMs显著增强了搜索算法[199],生成上下文感知的视频推荐[200],并在字幕生成和翻译等自然语言任务中发挥作用[89],从而为在线视频平台和多媒体信息检索系统做出贡献。它们在特定关键字检索[88,201,202]方面的能力改进了智能推荐系统。多媒体应用将视频与音乐等多媒体领域相结合[203]。
视频摘要和编辑。 Vid-LLMs在生成视频内容的简洁摘要方面起着重要作用[204],通过分析视觉和听觉元素提取上下文感知摘要的关键特征。这个应用在新闻聚合和内容策划中非常重要。它们还在广告编辑等特定领域中发挥作用[205]。
交互和用户中心技术
虚拟教育、可访问性和手语。 Vid-LLMs在教育领域充当虚拟导师,分析教学视频以实现交互式学习环境[206]。它们还促进手语翻译为口语或文本[207,208],改善聋人和听力障碍者的可访问性。
交互式游戏和虚拟环境。 在游戏行业中,Vid-LLMs在创建动态对话和故事情节方面起着关键作用,增强与非玩家角色(NPC)的交互体验,并帮助生成任务和游戏内文本等过程[209,210]。它们还为客户服务聊天机器人提供动力[211,212]。此外,在增强现实/虚拟现实/扩展现实中,Vid-LLMs为生成动态叙事内容做出贡献,增强用户沉浸感[213,214]。
意识到状态的人机交互和机器人规划。 在人机交互领域,Vid-LLMs代表了一个重大进展,分析用户视频以识别上下文并提供定制的帮助,正如Bi等人所强调的那样[87]。交互形式还涉及像字幕视频[215],[216]这样的视频内容理解。这项技术增强了从教育到交互媒体等各种应用中的用户参与度。同时,在自主机器人导航方面,SayPlan方法[217]将LLMs与3D场景图结合起来,使机器人能够解释和导航复杂的大型建筑空间。这种方法简化了环境复杂性,规划行动,并自我纠正导航错误,对于在多房间环境中操作的机器人至关重要。
医疗保健和安全应用
医疗创新。 在医疗领域,Vid-LLMs在处理和解释医学文献方面发挥着重要作用,协助诊断和教育过程[218],为医疗专业人员提供决策支持。它们在患者交互工具中得到应用,例如用于症状评估和解答与健康相关的问题的聊天机器人,从而改善患者护理和获取信息[219]。
安全、监控和网络安全。 Vid-LLMs在安全和保护方面起着关键作用,分析通信以发现潜在威胁[220,221],并检测数据中的异常模式[222,223]。在监控视频分析中,它们识别可疑行为,协助执法部门[224]。它们在网络安全方面的作用包括识别网络钓鱼尝试,并通过总结与案件相关的文本来进行取证分析[225]。
自动驾驶车辆的进展。 在自动驾驶车辆中,Vid-LLMs处理自然语言输入以实现交互[226],帮助理解道路标志和指示[105,227],并改进车辆控制系统的用户界面[226],提高安全性和用户体验。
未来发展方向和结论
在本调查中,我们回顾了大型语言模型(Vid-LLMs)在视频理解方面的最新进展,并介绍了有效理解和应用Vid-LLMs的基本原理、重要发现和技术。我们从视频理解的发展历史开始,从传统的非深度学习方法到基于神经网络的方法,再到自监督预训练视频,现在到基于LLMs的当前视频理解解决方案。
局限性和未来工作
尽管当前的方法通过使用大量的视频数据进行预训练和微调,以及引入LLMs允许更好地理解视频中的各种信息,但在面对现实世界中的各种视频理解任务时仍存在许多未解决的挑战。
细粒度视频理解。细粒度视频理解仍然是一个挑战。无论是在视频的时间理解还是视觉定位领域,缺乏数据集和不足的研究使得在视频理解任务中实现更细粒度的难度增加。此外,处理和分析视频数据需要大量的计算资源。细粒度理解通常意味着分析每个视频帧,从而显著增加了计算负载。此外,视频不仅包含空间信息,还包含时间信息。理解对象如何随时间变化和相互作用,特别是在细粒度级别上,比预期的要复杂得多。更进一步地,理解视频内容的更深层次语义,如情感、隐喻或复杂场景的动态,比仅仅识别对象或动作更困难。LLMs与视频的结合为细粒度视频理解带来了一线希望。LLMs使文本能够在各个层面上与视频对齐,部分解决了细粒度视频理解的问题。
长期视频理解。由于长视频包含大量帧,长视频的持续时间增加了分析的复杂性,特别是在理解事件和行为随时间变化的情况下。因此,识别关键事件并在长视频中保持注意力是困难的。需要有效的机制来检测和突出显示重要部分,特别是在内容丰富或情节复杂的视频中。
多模态视频理解。多模态视频理解需要整合不同类型的数据,如视觉、音频和文本,以更好地理解视频。对齐这些数据,特别是在空间和时间上的同步方面,尤为重要。这个领域缺乏相关研究,并且面临着数据稀缺的挑战。此外,构建这样的数据集面临着确保数据注释的高质量和一致性的挑战。在方法论方面,跨不同模态提取和利用有效特征是实现精确视频理解的关键,但这个过程充满了挑战。
视频理解中的人机交互。视频理解的结果最终服务于人类,因此如何更好地传达人类需求并理解模型结果也是一个非常重要的问题。LLMs的出现使得视频理解模型和人类能够通过文本更有效地传达信息。然而,LLMs并没有完全解决交互问题。例如,使用文本来指导模型对视频的理解不能完全
多模态LLM中的幻觉。“幻觉”是指模型生成的回复与相关的源材料或输入显著脱节的现象。这可能导致生成高度错误或不真实的描述,与提供的视频不一致。在使用LLM进行视频理解时,导致这种情况的主要原因如下:
- 视觉特征提取不足。
- 视频上下文内容的影响。
- 视觉特征领域和语言领域之间的领域差距。
- LLM中固有的幻觉。因此,为了解决幻觉的影响,可以从改进视频编码器的效果、增强对长期时空上下文的理解以及视觉潜在空间和语言潜在空间之间的协作等方面寻找解决方案。
结论
本调查从模型、数据和任务三个方面按照时间顺序调查了视频理解的现状、限制和发展。它特别深入探讨了大型语言模型(LLMs)的出现对视频理解领域带来的重大变化。通过与LLMs的协作,视频理解模型能够更有效地与人类互动,大大加速了相关模型的应用和实施。此外,广泛的视频语言预训练显著提高了这些模型的可扩展性和多功能性。与此同时,Vid-LLMs面临着许多挑战。关键问题包括改进对细粒度/长期视频的理解以应对现实世界的视频理解挑战,增强现有LLMs和视频模型之间的交互,以更好地遵循人类指令,并解决Vid-LLMs中的幻觉问题。这些是未来研究需要解决的主要问题。我们相信本调查将成为研究界的重要资源,并指导未来在Vid-LLMs方面的研究。