1.深度体现在什么地方?
使用的是深度学习网络,本文中用的是双流网络以及C3D网络。
2.时间线性编码是怎样的一种编码方式?
TLE首先对一段视频,切割成K段,然后对每一段,让它通过一个CNN提取到CNN features,当然这K个CNN是权值共享的,然后对这K段的CNN features,首先用一个融合操作把它们糅合成一个features,然后对这融合后的features进行编码从而得到最终的video representation。
3.将TLE嵌入到CNN的哪一层?
在本文中,TLE嵌入到最后一个卷积层之后。
4.什么是端到端的学习?
相对于深度学习,传统机器学习的流程往往由多个独立的模块组成,比如在一个典型的自然语言处理(Natural Language Processing)问题中,包括分词、词性标注、句法分析、语义分析等多个独立步骤,每个步骤是一个独立的任务,其结果的好坏会影响到下一步骤,从而影响整个训练的结果,这是非端到端的。
End-to-End 学习不需要这些步骤,像黑盒子一样一步到位解决问题。神经网络算法就是一个被广泛应用的End-to-End学习的算法。End-to-End 算法尤其适用于数据量巨大的机器学习任务中。
5.特征映射聚合技术的怎么样的?
文中最终采用逐元素相乘的融合技术。
6.时间线性编码捕捉整个视频片段中最具表现力的交互,这些“交互”指的是什么?
文中将视频分为K的片段,交互指的是各个片段之间的相互作用。
TLE这篇文章认为,在一段视频中,连续帧之间的移动通常很微小,然后参考到IDT算法中对特征点密集采样并且使用光流来跟踪它们能够得到比较好的video representation,因此提出需要有一个对所有的帧进行综合编码而得到的video representation,从而才能够捕捉到长时间的动态过程。
TLE层的具体操作如下:
融合方法有:
- 逐元素平均
- 逐元素最大
- 逐元素相乘
然后通过实验发现,逐元素相乘的效果最好,因此选用它来作为融合的方法。
编码的方法有:
- Bilinear Models(双线性模型)
双线性模型是对两张feature map做外积,如下:
其中,是输入的两张feature maps,在TLE中,X=X’。
表示做外积,W是模型的参数,是需要通过学习得到的,这里使用的参数是线性的,最后得到的
就是双线性特征。
双线性特征能够捕捉所有空间位置上的特征间的相互作用,因此能够得到一个高维的特征表示。为了简化运算、减少参数量,作者使用了一个Tensor Sketch algorithm来对这个高维特征进行降维,从而避免了对外积的直接计算。模型的参数W是通过端对端的反向传播来学习的。
- Fully connected pooling(全连接池化层):
使用全连接层来连接融合后的feature maps和最后的分类器。
实验发现,相对于全连接池化层,双线性模型参数更少,同时还能够取得更好的分类效果。作者提出其实还可以使用deep fisher coding或者VLAD来进行编码。还有一个细节,当使用双线性模型时,特征是取的平方根,符号由y本身的符号来决定,并且还做了L2-normalization,使用softmax层作为分类器。
选取K=3,训练时的forward和backward过程如下:
其中The Back-propagation for the joint optimization of the K temporal segments can be derived as:
接下来是一些主要的实验结果对比:
- 第一组结果对比是在双流网络上的三个融合方式的对比,这里统一使用的是BN-Inception来作为前面提取特征的CNN网络,使用双线性模型作为编码方式,仅仅是融合方式的不同。
结果表明逐元素相乘的融合方法效果最好。作者认为这是因为逐元素相乘的方式能够更加精确地融合appearance和motion的信息。
- 第二组对比结果是使用不同的CNN结构来提取特征,其他的结构保持一致。
结果表明,BN-Iception的效果最好,可能是因为BN-Iception结构的深度更甚。
- 第三组是用C3D网络提取特征,然后使用TLE,比较不同融合方法的结果。
还是逐元素相乘的结果最好。
- 将使用BN-Inception+逐元素相乘融合的TLE模型与其他的视频动作识别算法结果进行比较如下:
其中倒数第二行的TS是指tensor sketch algorithm,也就是之前提到过的数据降维的方法。从上表可以看到,TLE的模型取得了当时state-of-art的结果,同时使用双线性模型的TLE的参数比起其它模型会少很多,训练起来更高效,并且效果也更好。
- 接下来作者做了一个验证实验,就是使用C3D+TLE层的模型来和其它使用3D卷积以及经典方法进行比较,目的是为了证明TLE层对于识别效果提升的有效性:
作者认为加入TLE后的C3D效果提升是因为能够使用视频数据里的长时间的多方面的时序信息来对动态的appearance和motion进行编码,从而能够得到更为准确的描述。
参考:
1.https://blog.csdn.net/weixin_39718543/article/details/82851589