Video Paragraph Captioning as a Text Summarization Task

论文不太小下载,所以提供了云盘地址,需要的可以下载哦

pdf 链接:https://pan.baidu.com/s/1yP6DVpXoYwzXJX2eVzXx2Q 
提取码:1234

摘要

一、Introduction

二、Our VPCSum Method

 2.1.Proposal Extraction

 2.2 Proposal Captioning

2.3 Caption Summarization

 2.4 Leverage Visual Information

3 Experiment



摘要

视频段落字幕的目的是生成一组连贯的句子来描述一个包含多个事件的视频。以前的大多数方法通过使用真实事件(ground-truth event)的片段简化了这个任务。在本文中,我们提出了一个新的框架,将该任务作为文本摘要任务。我们首先生成大量针对不同视频片段的句子级标题,然后对这些标题进行总结,得到最终的段落标题。我们的方法不依赖于真实的事件片段。在两个流行的数据集ActivityNet标题和YouCookII上的实验证明了我们的新框架的优点。在ActivityNet数据集上,我们的方法甚至优于先前使用真实事件段标签的一些方法。



一、Introduction

Video captioning, 用自然语言描述视频内容的任务,是计算机视觉和自然语言处理领域的热门任务。一开始,研究人员试图为短视频片段生成句子级别的字幕the task of describing the content of Venugopalan等人(2015)和Krishna等人(2017)提出密集视频字幕的任务,系统需要先检测事件片段,然后生成标题.Park等人(2019)提出了视频段落字幕的任务:他们ground-truth event 片段,重点是生成连贯的段落。Lei等人(2020)遵循任务设置,提出了一个recurrent transformer model ,可以生成更连贯、重复更少的段落。考虑到groundtruth事件片段在实践中经常不可用,我们的目标是生成没有ground-truth片段的段落标题。

密集视频字幕的任务: 常规的视频通过会包含大量的事件(Event)。举个例子,如果在一个视频中有事件“一个人弹钢琴”,那么很有可能也有事件“另一个人在跳舞”,或者事件“一群人在鼓掌”。为此,密集视频字幕的任务是视频多事件描述任务,内容包括同时检测和描述视频中事件. 注:视频多事件描述的主要任务包括检测事件和描述事件。事件在视频中都有独立的开始时间和结束时间,但是时间节点都会有重叠关系。

视频段落字幕的常规框架如图1a所示。给出一个未修剪的视频,一个事件检测模块输出一组没有冗余的事件段,事件标题模块从这些段中生成标题。Park et al., 2019;Zhou et al., 2019; Lei et al., 2020 使用真实的事件片段,并关注事件标题模块。Zhou et al.(2019)使用额外的人工标注的边界框作为监督。(Sah et al., 2017;Zhou et al., 2018;Mun et al., 2019)使用预测的事件片段并基于它们生成字幕。上述方法很大程度上依赖于准确的事件段。根据之前的工作(Zhou et al.,2018;Mun等人,2019年)事件检测模块的性能不太好,成为总体模型性能瓶颈。为了解决这个问题,我们提出了一个新的框架VPCSum,如图1b所示。对于给定的视频,我们首先提取密集的事件片段候选(我们称之为proposals),并使用proposals标题模块生成提案标题。然后将视频段落标题作为文本摘要任务处理,得到最终的摘要(段落标题)。

在本工作中,我们只抽取式摘要,其中段落标题是通过从proposals标题中选择组成的。我们在两个通用的数据集上进行了实验结果表明了该框架的优越性。



二、Our VPCSum Method

如图1b所示,我们的框架有三个模块。proposals提取:为视频提取密集的proposals ;  proposals Captioning:为提取的提案生成标题;Caption Summarization:对生成的提案标题进行汇总,得到视频段落标题。接下来我们将介绍每个模块。

 2.1.Proposal Extraction

For proposal extraction, we use the BMN (下图为BMN特征矩阵,具体可点击“BMN" 查看另一篇博客介绍) model (Lin et al., 2019), a popular model for temporal action proposal generation. It can extract complete and accurate proposals. We extract the top 100 proposals for each video.

 2.2 Proposal Captioning

对于proposal Captioning,我们选择了ActivityNet的TSRMRNN模型(Wang et al., 2020) 字幕和VTransformer模型(Lei等,2020)。我们相信,如果我们选择一个更好的句子级字幕模型,性能可以进一步提高。

pdf 地址:https://arxiv.org/pdf/2006.11693v2.pdf

Wang et al 设计了一个跨模态门控(CMG)层次RNN,可以自适应评估语言信息和视觉信息的权重,以更好地生成标题。

step1(Feature Extractor) 视频若干个步幅为0.5s的非重叠片段TSN提取帧级特征 (concatenate optical flow(光普) modality and RGB modality)

step2 (Temporal Event Proposal)DBG检测每个视频的前100名proposal平均每个视频输出的提案数约为2.4个 

step 3 visual encoder (如图)

step4 Language Decoder.

解码器的功能是将编码器产生的视觉表示转换为目标模态。与传统的图像/视频字幕模式不同,密集视频字幕解码器的目标输出是一组句子,而不是一个句子。为了增强多模态融合,我们提出一种跨模态门控(CMG)块自适应平衡视觉和语言信息。输入包含:1) the position embedding 2) the proposal’s feature vector 3) the last hidden state in the word RNN of the previous sentence, and 4) the previous hidden state of the sentence RNN. 我们使用门控机制来平衡语言信息si 和视觉信息


2.3 Caption Summarization

 标题汇总模块对proposal的标题进行汇总,生成最终的视频段落标题. 在这项工作中,我们的用抽取式文档摘要任务。摘要模型的体系结构如图2所示。我们首先根据proposal开始时间对proposal标题进行排序,并在每个标题的开头和结尾添加特殊的[CLS]和[SEP]标记。我们使用token嵌入、分段嵌入和位置嵌入的总和来表示每个单词。输入表示被输入到预先训练的BERT模型(Devlin et al., 2018),然后我们得到上下文token表示。我们使用[CLS]s的上下文向量来表示每个标题,并将它们输入堆叠的变压器层(Vaswani等人,2017)。我们使用一个sigmoid层来计算每个标题的分数

 对于抽取式摘要,我们需要根据已知摘要作为我们的培训目标来标注每句话。许多研究人员使用贪婪算法(Nallapati et al., 2016),句子被一个一个地选择,以最大化相对于目标摘要的ROUGE分数。选定的句子被标记为1,而其他句子被标记为0(硬标签)。在我们的任务中,我们找到了一种更有效的软标签标注方法。我们用最大ROUGE分数标记标题ci与真实标题gi,并使用二分类交叉熵作为我们的损失函数

 2.4 Leverage Visual Information

上面的标题摘要模块给每个proposal标题分配一个预测分数。预测分数只取决于文本信息. 为了利用视觉信息,我们需要一个"视觉的摘要模块",它为每个proposal提供一个可视化的权重评分。ESGN模型(Mun et al., 2019)对我们来说似乎是一个不错的选择。它使用一个指针网络从提案中选择事件,并为每个proposal视觉分配权重评分。我们使用这个模型来计算直观的加权得分:

 We select captions according to score(i) and use Trigram Blocking to reduce redundancy, as in
Liu and Lapata (2019).



3 Experiment

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值