【学习周报】论文阅读学习

Bohemian_mc

已于 2022-12-24 21:06:18 修改

阅读量517

点赞数

文章标签：学习论文阅读人工智能

于 2022-12-17 22:19:37 首次发布

本文链接：https://blog.csdn.net/zzPaulmn/article/details/128357512

版权

本文介绍了两篇关于视频理解和字幕生成的论文。第一篇提出SibNet，采用双分支结构（内容分支和语义分支）编码视频信息，以改善单一编码方式的局限。第二篇提出了一种单阶段的段落字幕模型，直接为未修剪的视频生成多样性的段落描述，通过动态视频记忆和多样性驱动的训练策略解决了高频词和冗余短语问题。这两项工作都在多个数据集上显示了优越性能。

摘要由CSDN通过智能技术生成

本周主要利用碎片化的时间阅读了导师推荐的两篇文章，分别是：

第一篇文章主要针对现有方法在进行编码时常常使用 “single flow” 的方式，而为了更好地编码视频信息，本文提出了 “two-branch” 的方式。

第二篇文章提出了一个一阶段的段落字幕模型，避免了事件检测阶段，直接为未修剪的视频生成段落描述。

思考：
Towards Diverse Paragraph Captioning for Untrimmed Videos这篇文章在experiments章节给出的案例，很好地解决了其它视频字幕模型遇到的两个问题：

高频词问题，当(man 2.26% vs. woman 0.85%)时，模型倾向于生成字幕man。
冗余短语问题，不管视频内容如何，都生成了““speaking to the camera”字幕，这是训练集中频率最高的动词短语。

而上述两个问题在HMN模型中也十分常见，因此该方法对于解决HMN的痛点问题也显得十分有帮助。

学习内容：

SibNet: Sibling Convolutional Encoder for Video Captioning
Towards Diverse Paragraph Captioning for Untrimmed Videos

学习时间：

12.12 - 12.24

学习笔记：

SibNet: Sibling Convolutional Encoder for Video Captioning

在这里插入图片描述

1.Introduction

现有的方法在编码video的信息时，常使用“一条线”（single flow），本文为了更好的编码video信息，提出了“两条线”（two-branch）方法。其中：

第一个分支（内容分支，content branch）使用自编码器编码video的视觉内容。
第二个分支（语义分支，semantic branch）使用视觉-语义嵌入编码video的语义信息。

然后，使用soft-attention将二者联合，再使用RNN进行解码，得到最终输出。

2.Overview of the proposed SibNet

在这里插入图片描述
SibNet框架概览。它采用双分支架构来协作编码视频，损失函数包含三个部分：内容损失Lc、语义损失Ls和解码器损失Ld。利用自动编码器(Autoencoder)和视觉语义联合嵌入(visual-semantic joint embedding)来施加细粒度的正则化，该正则化推动内容分支(content branch，图中蓝色方框)来捕获视觉内容，并推动语义分支(semantic branch，图中黄色方框)来编码视频语义。

3.contribution

提出了Sibling Convolutional Encoder (SibNet)，它由两个分支组成，内容分支负责捕获视觉信息，语义分支用于生成特定语义（semantic-specific）表示，这种表示可以捕获某些帧在语义上的重要性，为内容分支提供补充。
本文设计了新的损失函数，由三项组成，分别是：content loss、semantic loss、decoder loss。

4.Illustration of the proposed Sibling Convolutional Encoder (SibNet)

在这里插入图片描述
同级卷积编码器（SibNet）架构。其由内容分支和语义分支组成，分别表示为CNNc和CNNs。CNNc和CNNs分别通过堆叠三个和六个相同的时间卷积块（TCB）来构造这两个分支。在RNN解码器中采用了软注意机制（soft-attention）。

TCB模块图示如下：
在这里插入图片描述
TCB是内容分支和语义分支的基本组件。

5.Experiments

5.1 MSVD数据集实验结果

在这里插入图片描述

5.2 MSR-VTT数据集实验结果

在这里插入图片描述

5.3 消融实验

将第二小节 overview 图示中的分支结构拆分为两部分DL-3（Content branch）、DL-6（Semantic branch）分别在不同的数据集上进行实验；除此之外，还针对不同的loss进行消融实验，例如 Ours（DL）表示仅用解码器损失Ld来训练。实验结果如下图所示：
在这里插入图片描述

5.4 Qualitative comparison

在这里插入图片描述

“Single”、“Sib-DL”和“Ours”表示由名为Single（DL-3）、Ours（DL）和Ours（Full）的变体生成的字幕，“GT”表示真实数据说明。

Towards Diverse Paragraph Captioning for Untrimmed Videos

在这里插入图片描述
论文地址：https://arxiv.org/abs/2105.14477
代码地址：https://github.com/syuqings/video-paragraph

1.introduction

视频段落字幕（Video paragraph captioning）的目的是在未修剪的视频中描述多个事件。现有的方法主要包括事件检测和事件字幕两个步骤，而这种二阶段的方式使生成字幕的质量高度依赖于事件建议（event proposal）检测的准确性。

在本文中，作者提出了一种单阶段的段落字幕模型，旨在避免事件检测阶段而直接为未修剪的视频生成段落描述。为了确保描述的连贯性和事件的多样性，作者提出使用动态视频记忆来增强时间维度的Attention。通过逐步暴露新的视频特征，同时抑制过度访问的视频内容，来控制模型的视觉焦点。

此外，作者还提出了多样性驱动的训练策略，以提高字幕的多样性。考虑到未修剪的视频通常包含大量冗余的帧，作者进一步用视频编码器提取关键帧，提高了效率。

在ActivityNet和Charades数据集上的实验结果表明，作者提出的模型在不使用任何事件边界注释的情况下，在准确性和多样性度量上都显著优于目前SOTA模型的性能。

2.Overview of the proposed video paragraph captioning model

在这里插入图片描述

3.Illustration of proposed video paragraph captioning model

3.1 Keyframe-aware Video Encoder

未修剪的视频中有大量的冗余帧，这给解码器带来了巨大的注意力计算负担。因此，作者提出了在视频编码过程中显式地选择关键帧。用一个关键帧选择层来增强普通编码器，它根据其上下文表示来预测每个片段的信息量。在第i个编码层中，所编码的视频特征计算如下：

在这里插入图片描述
$\sigma$ 为sigmoid函数， $s^i_j$ 是预测第 j 个clip在第 i 个编码层所包含信息量的标量。

然而，仅依靠段落生成损失不能为关键帧选择提供足够的监督，视频特征选择不当会阻碍解码器的注意力学习。因此，作者提出在视觉-语义联合embedding空间中重建视频的高级语义embedding。

具体来说，就是利用视频文本检索任务作为代理任务来预训练视觉-语义联合embedding空间。首先将视频特征序列 $X^0$ 和ground-truth段分别提供给GRU，得到每个序列的全局编码向量。然后将其映射到联合embedding空间，用hard negative triplet loss优化，以确保具有相似语义的视频/文本被embedding得更近。经过预训练后，固定GRU的参数，计算视频重建损失如下：

为了惩罚大量被选择的关键帧，进一步引入了一个稀疏性损失，如下：

其中，L为视频clip的总数， $δ$ 为表示关键帧的选择比例的超参数。在训练阶段，使用关键帧的soft selection来进行梯度反向传播；而在推理时，选择 $Top[δ_L]$ 个关键帧，以降低解码阶段的计算成本。

3.2 Attention with Dynamic Video Memories

利用编码的视频特征序列，解码器采用时间注意机制进行段落生成。然而，视频段落通常包含丰富的时间逻辑结构，传统的注意力机制很难从有限的训练样本中学习。因此，作者利用动态视频记忆增强了解码器中的时间注意机制。

本文的模型不是在每个解码步骤采用相同的特征序列，而是在每个步骤 t 采用视频记忆 $M_t$ 。这些步骤动态更新，使视觉注意在不同事件上移动。假设 $α_t$ 是第t步在视频记忆上的注意权重。我们利用 attention histories ${α_{t-W},...,α_t\}$ 和窗口W将 $M_t$ 更新到 $M_{t+1}$ 。

使用attention histories而不是 $\alpha_t$ ，是为了在生成一个完整的短语或句子时更新视频记忆。作者将attention histories聚合为 $\widetilde{\alpha}_t$ ，以提高最近步骤的注意力重要性：

其中 $w_j$ 是历史衰减权重。然后，使用 $\widetilde{\alpha}_t$ 更新视频存储器，步骤如下：

在 $p ro g ress i v e$ $m e m ory$ $e x p os u re$ 中的 “add” 操作，渐进地向存储器添加更多视频剪辑特征。
在 $o v er - a ccess$ $m e m ory$ $d ec a y$ 中的 “erase” 操作，以删除已经描述过的片段。