- Dense-Captioning Events in Videos
方法:首先从输入视频中提取C3D特征,这些特征以不同的步幅输入到提案模块中,以预测短事件和长事件。每个提案都包含一个唯一的开始和结束时间以及一个隐藏的表示,然后用作字幕模块的输入。最后,这个字幕模型利用来自相邻事件的上下文来生成每个事件描述。
优点:使用不同的步幅来采样输入到DAPs模型中,得到交叉重叠的段,然后得到了不同的动作提议;在字幕生成模块,使用了注意力机制来提取上下文信息。
缺点:性能高度依赖于生成的事件提议的质量,这限制了两个子任务的相互促进;没有考虑事件之间的时间结构,很难对因果关系等复杂关系进行建模;提议模块和字幕生成模块都需要改进。
2.Jointly Localizing and Describing Events for Dense Video Captioning
方法:输入视频首先通过3D CNN编码成一系列剪辑级特征,这些特征被输入TEP模块以生成候选提案。TEP模块通过集成事件/背景分类来预测事件提议,时间坐标回归来细化每个提议的时间边界,以及描述性回归来推断每个事件的描述复杂性,从而将其集成到单个镜头检测架构中。在根据事件性和描述性分数对候选提案进行排名后,排名靠前的提案依次注入SG模块以进行句子生成。SG模块利用属性和基于强化学习的优化来增强字幕。
优点:是一种端到端的模型;设计了一个新的描述性回归组件,一方面测量句子生成中每个事件的描述复杂性,另一方面调整事件提议。
缺点:描述回归的解释性较差,可能是分类和回归边界提升了提议的效果,加入类别信息和强化学习的训练方法提升了字幕的性能;仅考虑事件片段内的视觉特征。
3.Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning
方法:视频输入首先被编码为一系列视觉特征,然后将视觉特征输入双向序列编码器。双向SST同时编码过去、当前和未来的上下文以进行提案预测。检测到的事件边界处的隐藏状态将作为事件的上下文向量。然后将上下文向量和检测到的事件剪辑特征融合在一起并用作视觉信息输入。解码器LSTM将视觉输入翻译成句子。
优点:提出了一种双向提议方法,有效地利用过去和未来的上下文进行提议预测;通过将提议模块和对应提议中的隐藏状态仔细融合来表示每个事件解决同一时间结束的不同事件无法区分的问题;提出了上下文门控机制来动态平衡当前事件及其周围上下文的贡献。
缺点:不是端到端的训练,字幕的结果不能帮助提议过程的训练;对于长提议的字幕效果不好,LSTM难以解决长时间依赖问题;仅考虑事件片段内的视觉特征。
4.End-to-End Dense Video Captioning with Masked Transformer