【学习周报】

文章介绍了Youku-mPLUG,一个包含1000万个样本的大型中文视频-语言数据集,用于预训练和基准测试。同时提出VALOR,一个三模态(视觉、音频、语言)全方位感知预训练模型,通过多模态分组配准和描述任务增强模型性能。这两个数据集和模型提升了多模态理解和生成的能力,并在多项下游任务中取得最优表现。
摘要由CSDN通过智能技术生成

学习内容:

  1. Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks
  2. VALOR: Vision-Audio-LanguageOmni-Perception Pretraining Model and Dataset

学习时间:

  • 6.5 ~ 6.10

学习笔记:

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

在这里插入图片描述
论文链接:https://arxiv.org/pdf/2306.04362v1.pdf
github链接:https://github.com/X-PLUG/Youku-mPLUG

本文介绍了一个中文语境下最大的高质量视频语言数据集,名为Youku-mPLUG。此外,作者还提供了一个人工标注的基准,包括三个下游任务,即视频文本检索、视频字幕生成和视频分类。作者提出了一个名为mPLUG-video的解码器模型,该模型在Youku-mPLUG数据集上进行了预训练,并且是模块化的。实验结果表明,该数据集可以有效地评估模型的视频语言理解和建模能力。最后,预训练mPLUG-video可以显著提高模型性能,作者提出的mPLUG-video达到了新的最高水平。

VALOR: Vision-Audio-LanguageOmni-Perception Pretraining Model and Dataset

在这里插入图片描述
论文链接:https://arxiv.org/pdf/2304.08345v1.pdf
代码链接:https://github.com/TXH-mercury/VALOR

文章提出三模态视觉-语音-语言全方位感知预训练模型(Vision-Audio-Language Omni-Perception,VALOR),用于多模态理解和生成任务。和广泛研究的视觉-语音预训练模型不同的是,VALOR端到端联合建模了视觉、语音、语言的关系。对于每个单一模态的表示,其使用独立的编码器,最后使用一个解码器用于多模态条件文本生成。

本文设计了两个前置任务用于训练VALOR模型,包括多模态分组配准(Multimodal Grouping Alignment,MGA)和多模态分组描述(Multimodal Grouping Captioning,MGC)。MGA将视觉、语音、语言映射到共同的空间,构建视觉-语言、语音-语言和音视-语言的配准。MGC基于视觉、语音和他们的组合,生成文本tokens。

为了促进视觉-语音-语言预训练研究,本文构建了大规模高质量的三模态数据集VALOR-1M,其包含1M人工标注了音视描述的带有语音的视频。扩展实验表明VALOR能够学习强的多模态关系,并泛化到不同的下游任务(如文本检索、视频字幕和QA),同时支持不同模态输入(如视觉-语言、语音-语言和音视-语言)。VALOR在一系列公开跨模态benchmark上取得SOTA表现。

1.引言

作者认为只对视觉和语言进行关系建模,不足以构建一个强大的多模态系统,因此很有必要引入语音模态以构成三模态的交互。
在这里插入图片描述
因此,本文提出了VALOR预训练模型来形成三个模态的连接,以完成三个模态的理解和生成。同时,作者认为公开的视觉-语言数据集不足以支撑三模态预训练,一是所有的图像-语言数据集和一些视频-语言数据集(如WebVid-2.5M)不包含语音信号;二是一些视频-语言数据集(如HowTo100M和HD_VILA_100M)包含语言模态,但他们的语言只限制在人类语音,其丰富性不足。为了克服以上不足,本文提出大规模高质量视觉-语音-语言数据集(VALOR-1M),以改进三模态预训练的效果。

文章工作贡献如下:

  1. 提出全方位感知预训练模型(VALOR),建立了视觉、语音、语言之间的关系用于三模态理解和生成。
  2. 引入使用多模态分组策略的MGA和MGC预训练任务用于增强模态泛化能力,同时支持多模态输入。
  3. 提出VALOR-1M数据集,这是第一个大规模人工标注的三模态数据集以改进视觉-语音-语言研究,以及VALOR-32K用于音视-语言评估。
  4. 在VALOR-1M和当前公开的数据集(如MSRVTT、ActivityNet)上预训练,VALOR在一系列多模态基准上取得SOTA效果。

2.音视频数据采集

本文从AudioSet中选择视频,该数据集是一个大规模,用于语音事件识别。AudioSet包含2M从Youtube视频中挑选的10s视频片段。其被分成了2M分布不平衡的训练集,22K分布平衡的训练集和20K验证集。过滤掉1M低质损坏的视频,最终得到1M视频。

文章将其分成两部分,一部分是VALOR-1M,作为三模态预训练数据集;另一部分是VALOR-32K,作为音视-语言下游任务benchmark数据集。其VALOR-1M数据集由不平衡数据集得到,VALOR-32K由平衡训练集和验证集得到。其中视频-语言预训练数据集如下图所示:
在这里插入图片描述

VALOR-1M和VALOR-32K属性对比如下图所示:
在这里插入图片描述
当前公开的视频-语言与训练数据集和下游benchmark数据集如下表所示:
在这里插入图片描述

3.VALOR模型

在这里插入图片描述
VALOR包含一个文本编码器,一个视觉编码器,一个语音编码器实现单一模态表示;和一个多模态解码器,其参数能够从预训练模型继承参数并加速收敛和改善性能。

在VALOR模型中:

  • 文本编码器:BERT作为文本编码器。
  • 视觉编码器:文章尝试了两个,分别是CLIP和VideoSwin Transformer。
  • 语音编码器:在AudioSet上预训练的Audio spectrogram transformer (AST)作为语音编码器。
  • 多模态解码器:对BERT进行预训练作为解码器。

4.实验结果

和SOTA方法在多个检索任务上的对比结果如下表所示:
在这里插入图片描述
和SOTA方法在多个音视频描述任务上的对比结果如下表所示:
在这里插入图片描述
预测结果可视化如下图所示:
在这里插入图片描述

5.总结

提出了一种统一的视觉-音频-语言跨模态预训练模型VALOR,通过设计的两个预训练任务,包括多模态分组对齐和多模态分组描述,对三模态的理解和生成进行建模。实验结果表明,VALOR具有良好的通用性和可扩展性。

提出了第一个强相关的视觉-音频-语言数据集VALOR-1M,以促进三模态预训练研究,提出了VALOR-32K,用于视听-语言检索和字幕基准测试。

在VALOR-1m和其他公共视觉-语言数据集上进行训练,VALOR在下游视觉/音频/视听检索、字幕和问答任务上实现了一系列新的最先进的性能。

未来,作者计划通过生成和过滤伪视听标题等无监督方法来增加VALOR-1M数据集的规模。此外,作者还计划在当前的VALOR框架中另外引入视觉和音频生成建模。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值