Panda-70M数据集:用多模态教师模型为7000万视频自动生成字幕

 人工智能咨询培训老师叶梓 转载标明出处

在多模态学习领域,高质量的视频-文本数据集对于训练和优化模型至关重要。然而,现有的大规模视频数据集往往存在手动标注成本高、视频内容与字幕匹配度不高等问题。为了解决这些问题, Snap 公司、加州大学和特伦托大学的研究团队推出了Panda-70M,这是一个大规模的视频数据集,包含了7000万个高分辨率、语义连贯的视频片段,每个片段都配有由多个跨模态视觉-语言模型自动生成的描述性字幕。

 Panda-70M 数据集与现有大规模视频-语言数据集的不同比较

方法

在构建Panda-70M数据集的过程中,研究者采用了一种语义感知的视频分割方法,以确保视频片段在语义上的连贯性,这对于生成准确的字幕至关重要。这种方法分为两个阶段:首先是通过镜头边界检测来分割视频,其次是基于语义相似性对片段进行拼接。

第一阶段,研究者使用了PySceneDetect工具,这是一种基于内容的检测器,能够识别视频中的场景切换点,并将长视频分割成多个镜头。为了实现这一点,他们设置了特定的场景切换阈值和最小场景长度参数,以确保分割出的视频片段既能够反映场景的变化,又不会过于零碎,从而保持了视频内容的完整性和观看体验。

第二阶段,研究者对第一阶段产生的短连续片段进行处理,通过合并那些语义内容相同或相似的片段,以增强视频片段的连贯性。这一步骤是通过比较片段间的视觉特征来实现的,如果两个相邻片段的视觉特征相似度高于某个阈值,它们就会被合并为一个更长的片段。这个过程不仅提高了视频片段的语义一致性,还有助于减少因场景切换造成的片段过多的情况。

不同的视频分割算法,使用 Max Running LPIPS 指标来测试输出片段的语义一致性

在生成字幕的过程中,研究者采用了跨模态教师模型的方法。他们构建了一个包含31种不同配置的字幕模型的池,这些模型利用了不同的预训练权重和输入信息。模型池中的模型类型多样,包括专门处理视频视觉问答(VQA)的模型,如Video-LLaMA和VideoChat,以及用于图像字幕的模型,如BLIP-2和MiniGPT-4。

为了生成与视频内容相匹配的字幕,研究者为这些模型设计了特定的算法。例如,对于图像字幕模型,他们会从视频中随机采样一帧作为输入;而对于VQA模型,则除了视觉数据外,还会输入包含视频标题、描述和字幕等文本信息的提示。这样的设计使得模型能够结合视频的视觉内容和相关的文本信息,生成更加准确和丰富的字幕。

视频字幕生成流程,包括将长视频分割成几个语义一致的片段,然后使用多个教师模型生成视频片段的多个字幕,最后使用微调的检索模型选择最能描述视频片段的字幕作为注释

在Panda-70M数据集的构建过程中,研究者面临了如何从多个候选字幕中选取最佳字幕的挑战。由于现有的通用检索模型并不擅长在高度相关的候选中做出这种细微的区分,研究者决定采用一种更精细的方法来进行视频到文本的检索。

为了实现这一目标,研究者首先创建了一个人工标注的子集,由标注者从由教师模型生成的8个候选字幕中选择最准确的一个作为视频的最佳描述。这个标注过程为研究者提供了一个高质量的训练集,用于微调一个被称为Unmasked Teacher(UMT)的检索模型。在微调过程中,研究者采用了硬负样本挖掘技术,这是一种提高模型区分能力的方法,它通过给予模型更难的样本来训练,从而提升了模型识别最相关字幕的能力。

为了解决运行多个教师模型带来的高计算成本问题,研究者开发了一个多模态学生字幕模型。这个模型的设计理念是将从多个教师模型中获得的知识进行整合和提炼,以生成更高质量的字幕。

学生字幕模型的架构,包括视觉分支和文本分支,用于从多模态输入中生成字幕

学生模型采用了一种双分支架构,这种架构允许模型同时接收视觉和文本输入。具体来说,模型的一边处理视频内容,另一边处理与视频相关的文本信息,如字幕和元数据。这种设计使得学生模型能够充分利用多模态信息来生成更加丰富和准确的字幕。

在训练学生模型时,研究者采取了一种特殊的策略,即阻断文本分支到视觉分支的梯度传播。这意味着在训练过程中,视觉编码器仅基于视频内容进行优化,而不是受到文本输入的直接影响。这种方法有助于确保视觉编码器能够独立地学习如何从视频内容中提取信息,并且可以提高模型对视频数据的敏感度。

实验

研究者首先聚焦于视频字幕生成任务,以验证Panda-70M数据集对提升视频理解能力的效果。他们选择了Video-LLaMA模型作为基础模型,该模型在视频字幕生成领域已被证明是有效的。实验中,研究者不仅使用了Video-LLaMA的官方预训练权重,还尝试了使用Panda-70M数据集进行从头开始的训练,以观察数据集对模型性能的具体影响。为了进一步提高字幕生成的质量,研究者还训练了一个结合了视频和文本输入的学生模型,这个模型设计有双重分支,能够同时处理视觉信息和相关文本信息,以期生成更加准确和丰富的字幕。

在评估阶段,研究者选择了MSR-VTT和MSVD这两个广泛认可的基准数据集来测试模型的零样本字幕生成能力。他们采用了BLEU-4、ROUGE-L、METEOR和CIDEr等业界标准的评估指标,这些指标能够全面地衡量生成字幕的语言流畅性、语义相似度和内容覆盖度。通过这些评估,研究者能够定量地分析Panda-70M数据集对字幕生成质量的影响。

零样本视频字幕生成的百分比,比较了使用官方权重的 Video-LLaMA 和使用 Panda-2M 预训练权重的模型,以及在完整 Panda-70M 数据集上训练的学生模型
Panda-70M 测试集的一个视频样本和三个模型预测的字幕,包括使用官方权重的 Video-LLaMA 和具有视频输入或视频及文本输入的学生模型

在视频和文本检索的实验中,研究者采用了Unmasked Teacher模型来评估Panda-70M数据集在检索任务上的应用潜力。为了公平地评估数据集的效果,研究者从Panda-70M中随机抽取了与标准预训练数据集相同数量样本的子集,称为Panda-5M。这样的设计允许研究者直接比较Panda-70M数据集与现有数据集在相同条件下的性能差异。

在检索性能的测试中,研究者在MSR-VTT、DiDeMo和MSVD三个数据集上进行了零样本和微调后的评估。他们报告了R@1、R@5和R@10准确率,这些指标反映了模型在文本到视频(T2V)和视频到文本(V2T)检索任务上的准确性和召回率。特别是,R@1准确率表示检索结果中排名第一的相关视频或文本的比例,而R@5和R@10则提供了更宽松的评估,考虑了排名前五和前十的结果。这些评估结果有助于理解Panda-70M数据集在提高检索精度方面的贡献。

Unmasked Teacher 在零样本和微调文本到视频(T2V)和视频到文本(V2T)检索上的性能比较,使用了官方检查点和 Panda-5M 预训练

在文本到视频生成的实验部分,研究者采用了AnimateDiff模型,这是一个先进的文本到视频生成框架。他们特别关注了如何通过Panda-70M数据集来提升模型的生成能力。具体来说,研究者对比了使用官方预训练权重的AnimateDiff模型和使用从Panda-70M数据集中抽取的2.5M视频子集,即Panda-2M,进行训练的模型性能。这一对比实验旨在评估Panda-70M数据集对于提升文本到视频生成任务的效果。

为了全面评估模型性能,研究者选择了UCF101和MSR-VTT作为下游数据集进行零样本评估。UCF101是一个包含多种人类行为的视频数据集,而MSR-VTT则是一个视频描述数据集。在这些数据集上,研究者使用了Fréchet Video Distance (FVD)来衡量生成视频与目标视频之间的相似度,以及CLIP相似度(CLIPSim)来评估生成视频与文本描述的匹配程度。FVD是一个衡量视频内容相似性的指标,而CLIPSim则利用CLIP模型来评估视频和文本之间的语义一致性。

由 AnimateDiff 生成的文本到视频的生成结果,包括官方权重和使用 Panda-2M 预训练权重的模型

实验结果证明无论是在视频字幕生成、视频和文本检索,还是在文本到视频生成任务上,使用Panda-70M数据集预训练的模型均展现出了卓越的性能提升。

然而Panda-70M数据集的一些局限性。例如,数据集中的视频大多来自具有丰富语音内容的类别,如新闻、电视节目和纪录片,这可能限制了数据集在其他类型视频上的适用性。为了保持视频片段的语义一致性,单个视频中的内容多样性和平均视频长度可能受到了限制,这可能对长视频生成和密集视频字幕生成等任务构成挑战。未来工作的方向,包括收集更多非语音密集型视频以及构建包含更长视频和更密集字幕的数据集,以支持更广泛的下游应用。

论文链接:https://arxiv.org/abs/2402.19479

  • 8
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值