[论文阅读] Hybrid Space Learning for Language-based Video Retrieval-CSDN博客

本文链接：https://blog.csdn.net/yyhaohaoxuexi/article/details/112094778

Hybrid Space Learning for Language-based Video Retrieval

1. Motivation

通过文字检索为标记的视频。

dual encoding 的方式和心理学的双重编码理论相统一。双重编码理论指出，词语和视频的信息是通过不同渠道处理的，在大脑中的表示形式也是分开的。随后，这些表示被用来检索之前存储在大脑中的信息。

latne space是不可解释的，到底哪个模型可以真正学习到也是不得而知的。

2. Contribution

提出dual network，该网络对查询的语句或视频通过同样的方式进行编码，显示并逐步的学习视频和句子中全局，局部和时间模式。同时编码部分和公共空间的学习是正交的，以便于以后使用最新的公共空间的学习方法。
提出了一种新的混合空间学习，该方法继承了潜在空间的高性能和概念空间的可解释性。

3. Method

Overview：
在这里插入图片描述

3.1 Video-side Multi-level Encoding

首先，对于视频，每0.5s提取一帧。使用与训练的ImageNet CNN来提取帧的特征 ${v_1,...v_n\}$ 。当认为每帧是独立的时候，可以使用3D CNNs来提取特征。

3.1.1 Level 1. Global Encoding by Mean Pooling

使用Mean Pooling来捕获视频帧中的特征，因为在视频帧中重复出现的内容趋向于全局的特征（作者认为）。

$f_{v}^{1}=\frac{1}{n} \sum_{t=1}^{n} v_{t}\tag{1}$

3.1.2 Level 2. Temporal-Aware Encoding by biGRU

使用biGRU可以更好的捕捉视频和文本中的时序信息，同时该结构有着更少的参数（和biLSTM比起来）。

$\begin{aligned} \vec{h}_{t} &=\overline{G R U}\left(v_{t}, \vec{h}_{t-1}\right) \\ \overleftarrow{h}_{t} &=\overleftarrow{G R U}\left(v_{n+1-t}, \stackrel{h}{h}_{t-1}\right) \end{aligned}\tag{2}$

然后将前向和反向的结构concatenate到一起，从而得到 $h_{v}^{t}=\left[\vec{h}_{t}, \overleftarrow{h}_{t}\right]$ ，GRU的隐层参数设置为512，因此 $h_v^t$ 的大小是1024。所以可以得到1024 $\times$ n的特征 $H_{v}=\left\{h_{v}^{1}, h_{v}^{2}, \ldots, h_{v}^{n}\right\}$ 。biGRU的编码可以定义为 $f_v^{(2)}$ ，同时在行上做mean pooling：

$f_{v}^{2}=\frac{1}{n} \sum_{t=1}^{n} h_{v}^{t}\tag{3}$

3.1.3 Level 3. Local-Enhanced Encoding by biGRU-CNN

之前对于biGRU的每步输出都认为是相同的，为了在局部上区分细微的差异，在biGRU上构建CNN。使用1-d CNN。输出CNN的是之前biGRU的释出 $H_v$ 。使用 $Conv1d_{k,r}$ 表示 $r = 512$ 个卷积核，大小为 $k$ ， $k\geq2$ 。使用ReLU作为激活函数，得到 $n\times r$ 的特征图。因为 $n$ 由视频决定，所以使用max pooling将输出 $c_k$ 的长度变为 $r$ 。以上的描述可以定义为：

$c_{v}^{k}=\max -\mathrm{pooling}\left(\operatorname{ReL} U\left(\operatorname{Conv} 1 d_{k, r}\left(H_{v}\right)\right)\right)\tag{4}$

卷积核个数 $k$ 的含义是，有多少个相邻的行做信息交互。了得到更多维度表示，对1d-Conv分别使用 $k = 2, 3, 4, 5$ ，将他们的结果concatenate到一起：

$f_{v}^{3}=\left[c_{v}^{2}, c_{v}^{3}, c_{v}^{4}, c_{v}^{5}\right] \tag{5}$

将得到的三个特征concatenate到一起：

$\phi(v)=\left[f_{v}^{1}, f_{v}^{2}, f_{v}^{3}\right]\tag{6}$

3.2 Text-side Multi-level Encoding

对于一个给定的文本序列 $s$ ，长度为 $m$ ，其中的每个词都被表示为一个one-hot向量 ${w_1, ... w_m\}$ 。其中 $w_t$ 表示第 $t$ 个词。对序列中的每个vector使用average即可得到 $f_s^1$ ，该方法等同于传统的bag-of-words的表示。

对于biGRU编码，每个词首先通过乘一个word embedding matrix被转化为dense vector（one-hot mul matrix）。该矩阵是预训练的一个word2vec模型。剩下的和video encoder相同。（这层的输出表示为 $f_s^{2}$ ）

对于biGRU-CNN的编码层表示为 $f_s^3$ ，但是在这里使用 $k = 2, 3, 4$ 的1-d Conv。

多层特征也是通过concatenate到一起：

$\phi(s)=\left[f_{s}^{1}, f_{s}^{2}, f_{s}^{3}\right]\tag{7}$

此时得到的 $\phi(v)$ 和 $\phi(s)$ 是没有联系的，所以不同直接比较。所以将要映射到common space。

3.3 Hybrid Space Learning

混合空间包含：latent space和concept space，其中latent space旨在有着更好的结果，concept space意味着更好的解释性。

3.3.1 Learning a Latent Space

3.3.1.1 Network

仿射变换（affine transformations）其实就是一个Fully Connected(FC) layer。对于FC Layer使用BN是一个trick。所以在latent space中的视频特征 $f (v)$ 和句子特征 $f (s)$ 由：

$\begin{array}{l} f(v)=\mathrm{BN}\left(W_{1} \phi(v)+b_{1}\right) \\ f(s)=\mathrm{BN}\left(W_{2} \phi(s)+b_{2}\right) \end{array}\tag{8}$

得到。

使用余弦相似度（cosine similarity）来衡量video-text的相似度：

$\operatorname{sim}_{\text {lat}}(v, s)=\frac{f(v) \cdot f(s)}{\|f(v)\|\|f(s)\|}\tag{9}$

作者表示，之前尝试过Manhattan distance和Euclidean distance，但是都不如余弦相似度。

3.3.1.2 Loss Function

使用增强的triplet ranking loss。该loss在一个mini-batch中，使用negative examples在作为惩罚项。

$\begin{aligned} \mathcal{L}_{\text {lat}}(v, s) &=\max \left(0, m+\operatorname{sim}_{\text {lat}}\left(v, s^{-}\right)-\operatorname{sim}_{\text {lat}}(v, s)\right) \\ &+\max \left(0, m+\operatorname{sim}_{\text {lat}}\left(v^{-}, s\right)-\operatorname{sim}_{\text {lat}}(v, s)\right) \end{aligned}\tag{10}$

其中， $m$ 是margin，是一个常数， $s^-$ 和 $v^-$ 表示sentence和video的反例（negative sample）。注意，这个反例不是随机选择的，而是在当前的mini-batch中，选择和正例最像的反例。

3.3.2 Learning a Concept Space

学习一个concept space可以看作是一个多分类问题。

3.3.2.1 Network

使用和Learning a Latent Space相似的网络将 $\phi(v)$ 和 $\phi(s)$ 映射到Concept Space：

$\begin{array}{l} g(v)=\sigma\left(B N\left(W_{3} \phi(v)+b_{3}\right)\right) \\ g(s)=\sigma\left(B N\left(W_{4} \phi(s)+b_{4}\right)\right) \end{array}\tag{11}$

注意和公式(8)不同的是，此处的激活函数 $\sigma$ 使用的是sigmoid（因为是个分类问题嘛），对于一个concept的索引序列 $i = 1, . . . K$ ， $g(v)_i$ 表示concept和视频 $v$ 的相关性。（对于文本，也有同样的定义，可以得到 $g(s)_i$ ）

3.3.2.2 Loss Function

由于余弦相似度是计算向量之间的距离，对于concept space的标量来说，这不是最佳的选择。所以作者使用Jaccard similarity来计算video-text的相似度：

$\operatorname{sim}_{\operatorname{con}}(v, s)=\frac{\sum_{i=1}^{K} \min \left(g(v)_{i}, g(s)_{i}\right)}{\sum_{i=1}^{K} \max \left(g(v)_{i}, g(s)_{i}\right)}\tag{12}$

注意，这里的 $g (v)$ 和 $g (s)$ 没有归一化。

3.3.2.3 Concept-level annotations

假设每个视频有p个描述 ${s_1,...s_p\}$ 。有人提出过，“出现在多个句子中的概念要比仅出现一次的概念更重要”，因此使用基于概念频率（concept frequency）的labels来代替二分类的labels。使用 $K$ 维的向量 $y$ 作为 $v$ 的真值。其第 $i$ 个维度 $y_i$ 的值定义为第 $i$ 个概念出现的频率除以句子 $p$ 中所有概念的最大值。例如：
/Users/yangyang/Library/Application Support/typora-user-images/image-20210101213943710.png

3.3.2.4 Loss Function

对于多分类问题，二值交叉熵（binary cross-entropy）是常用的损失函数。该论文的损失函数如下：

$\begin{aligned} \mathcal{L}_{b c e}(v, s, y)=&-\left(\frac{1}{K} \sum_{i=1}^{K}\left[y_{i} \log \left(g(v)_{i}\right)+\left(1-y_{i}\right) \log \left(1-g(v)_{i}\right)\right]\right.\\ &\left.+\frac{1}{K} \sum_{i=1}^{K}\left[y_{i} \log \left(g(s)_{i}\right)+\left(1-y_{i}\right) \log \left(1-g(s)_{i}\right)\right]\right) \end{aligned}\tag{13}$
作者希望concept space不仅仅用于可解释性，同时也希望能够提高video-text matching。因此对于concept space使用triplet ranking loss：

$\begin{aligned} \mathcal{L}_{\text {con,rank}}(v, s) &=\max \left(0, m+\operatorname{sim}_{\operatorname{con}}\left(v, s^{-}\right)-\operatorname{sim}_{\operatorname{con}}(v, s)\right) \\ &+\max \left(0, m+\operatorname{sim}_{\operatorname{con}}\left(v^{-}, s\right)-\operatorname{sim}_{\operatorname{con}}(v, s)\right) \end{aligned}\tag{14}$

所以，在concept space上最重的loss是：

$\mathcal{L}_{\text {con}}(v, s, y)=\mathcal{L}_{\text {bce}}(v, s, y)+\mathcal{L}_{\text {con,rank}}(v, s)\tag{15}$

可以看到，在公式(15)中，如果没有 $\mathcal{L}_{bce}$ ，那么仅存的 $\mathcal{L}_{rank}$ 机会退化为latent space的loss。

3.3.3 Joint Learning of the Two Spaces

整个网络的损失函数如下：

$\underset{\theta}{\operatorname{argmin}} \sum_{(v, s, y) \in \mathcal{D}} \mathcal{L}_{\text {lat}}(v, s)+\mathcal{L}_{\text {con}}(v, s, y)\tag{16}$

除了提取视频特征的image CNNs，整个网络是使用端到端的方式训练的。

3.4 Video-Text Similarity Computation

video和text的相似度计算方式如下：

$\operatorname{sim}(v, s)=\alpha \cdot \operatorname{sim}_{\text {lat}}(v, c)+(1-\alpha) \cdot \operatorname{sim}_{\operatorname{con}}(v, c)\tag{17}$

其中 $\alpha$ 是一个超参数，用来平衡两个空间的重要性，取值范围是[0,1]。需要注意的是 $sim_{lat}(v,s)$ 和 $sim_{con}(v,s)$ 的原始值位于不同的标度之中。（啥意思？）所以在组合之前需要对两者使用min-max normalization。还需要注意的是，在inference阶段，video encoder部分可以单独编码。所以，对于大量的视频数据集，他们的混合空间特征是可以预先计算出来的。所以可以及时回答ad-hoc查询。

4. Experiments

有两种实验，首先是在三个数据集（MSR-VTT，TRECVID AVS 2016-2018，VATEX和MPII-MD）上和SOTA的模型进行对比；后者是进行ad-hoc查询。在介绍实验之前，作者介绍了实验的配置和预处理。

对于文本的预处理，将文本转化为小写，在训练集上，将出现次数小于5次的，都替换为一个特殊的token。

对于视频的预处理，在VATEX上，采用1024维的I3D特征。对于其他数据集，采用ResNeXt-101和ResNet-152，这两种特征concatenate到一起，得到4096维的CNN特征，称作ResNeXt-ResNet。

对于概念词汇，在训练集上采用NLTK的词性标注工具包进行标注，保留名词，动词和形容词。同时对于单词进行词素化（lemmatize the words），即dog和dogs是相同的概念。最后，将前K = 512个常用词选为最终概念词汇。

实验配置：triplet ranking loss 中的 $m = 0.2$ ， $\alpha=0.6$ ，根据经验，将common space设置为2048维，concept space为512维，因此latent space为2048-512=1536维，优化器采用Adam，batch-size=128，learning rate = 0.0001，采用和之前工作一样的调整策略，即验证集上的损失在三个连续的epoch上不降的话，就将learning rate减半。如果验证集上的结果在连续的10个epoch上没有提升，就提前结束。Epoch设置为50，实际上，提前结束会发生在15个epoch之后。

4.1 Comparison with the State-of-the-art

4.1.1 Experiments on MSR-VTT

20210102103417749
其中，MSR-VTT有三种划分，第一种是官方的，其他两种是[29]和[31]里的划分。结果中 $*$ 表示原文的结果，其他则是使用ResNeXt-ResNet特征训练的。官方划分的测试集更大，所以结果会低一些。

4.1.2 Experiments on TRECVID AVS 2016-2018

因为该数据集没有训练数据（都是查询数据），因此使用MSR-VTT和TGIF作为混合训练集。该文章使用推定的平均精度（infAP），这是TRECVID AVS任务使用的官方性能指标。测量的总体性能以百分比（％）报告。注意，TRECVID的ground-truth在shot-level部分可用。任务组织者采用pooling的策略来收集ground truth，即通过收集来自每个提交的前1000个镜头来形成候选镜头池，并选择一个随机子集进行手动验证。因此，ground truth有利于官方的参与者。由于通过我们的方法发现的排名最高的项目可能不在子集中，因此我们的方法的infAP分数可能会被低估。
在这里插入图片描述