Deep Temporal Linear Encoding Networks论文笔记

1.深度体现在什么地方?

使用的是深度学习网络,本文中用的是双流网络以及C3D网络。

2.时间线性编码是怎样的一种编码方式?

TLE首先对一段视频,切割成K段,然后对每一段,让它通过一个CNN提取到CNN features,当然这K个CNN是权值共享的,然后对这K段的CNN features,首先用一个融合操作把它们糅合成一个features,然后对这融合后的features进行编码从而得到最终的video representation。

3.将TLE嵌入到CNN的哪一层?

在本文中,TLE嵌入到最后一个卷积层之后。

4.什么是端到端的学习?

相对于深度学习,传统机器学习的流程往往由多个独立的模块组成,比如在一个典型的自然语言处理(Natural Language Processing)问题中,包括分词、词性标注、句法分析、语义分析等多个独立步骤,每个步骤是一个独立的任务,其结果的好坏会影响到下一步骤,从而影响整个训练的结果,这是非端到端的。

End-to-End 学习不需要这些步骤,像黑盒子一样一步到位解决问题。神经网络算法就是一个被广泛应用的End-to-End学习的算法。End-to-End 算法尤其适用于数据量巨大的机器学习任务中。

 5.特征映射聚合技术的怎么样的?

文中最终采用逐元素相乘的融合技术。

6.时间线性编码捕捉整个视频片段中最具表现力的交互,这些“交互”指的是什么?

文中将视频分为K的片段,交互指的是各个片段之间的相互作用。

 

 

TLE这篇文章认为,在一段视频中,连续帧之间的移动通常很微小,然后参考到IDT算法中对特征点密集采样并且使用光流来跟踪它们能够得到比较好的video representation,因此提出需要有一个对所有的帧进行综合编码而得到的video representation,从而才能够捕捉到长时间的动态过程。
TLE层的具体操作如下:

融合方法有: 

  • 逐元素平均

  • 逐元素最大

 

  • 逐元素相乘

然后通过实验发现,逐元素相乘的效果最好,因此选用它来作为融合的方法。

编码的方法有: 

  • Bilinear Models(双线性模型)

双线性模型是对两张feature map做外积,如下:

其中,是输入的两张feature maps,在TLE中,X=X’。表示做外积,W是模型的参数,是需要通过学习得到的,这里使用的参数是线性的,最后得到的就是双线性特征。

双线性特征能够捕捉所有空间位置上的特征间的相互作用,因此能够得到一个高维的特征表示。为了简化运算、减少参数量,作者使用了一个Tensor Sketch algorithm来对这个高维特征进行降维,从而避免了对外积的直接计算。模型的参数W是通过端对端的反向传播来学习的。

  • Fully connected pooling(全连接池化层):

使用全连接层来连接融合后的feature maps和最后的分类器。

实验发现,相对于全连接池化层,双线性模型参数更少,同时还能够取得更好的分类效果。作者提出其实还可以使用deep fisher coding或者VLAD来进行编码。还有一个细节,当使用双线性模型时,特征是取的平方根,符号由y本身的符号来决定,并且还做了L2-normalization,使用softmax层作为分类器。

选取K=3,训练时的forward和backward过程如下:
 

 其中The Back-propagation for the joint optimization of the K temporal segments can be derived as:

 接下来是一些主要的实验结果对比:

  • 第一组结果对比是在双流网络上的三个融合方式的对比,这里统一使用的是BN-Inception来作为前面提取特征的CNN网络,使用双线性模型作为编码方式,仅仅是融合方式的不同。

 结果表明逐元素相乘的融合方法效果最好。作者认为这是因为逐元素相乘的方式能够更加精确地融合appearance和motion的信息。

  • 第二组对比结果是使用不同的CNN结构来提取特征,其他的结构保持一致。

结果表明,BN-Iception的效果最好,可能是因为BN-Iception结构的深度更甚。 

  • 第三组是用C3D网络提取特征,然后使用TLE,比较不同融合方法的结果。

还是逐元素相乘的结果最好。

  • 将使用BN-Inception+逐元素相乘融合的TLE模型与其他的视频动作识别算法结果进行比较如下:

 

其中倒数第二行的TS是指tensor sketch algorithm,也就是之前提到过的数据降维的方法。从上表可以看到,TLE的模型取得了当时state-of-art的结果,同时使用双线性模型的TLE的参数比起其它模型会少很多,训练起来更高效,并且效果也更好。 

  • 接下来作者做了一个验证实验,就是使用C3D+TLE层的模型来和其它使用3D卷积以及经典方法进行比较,目的是为了证明TLE层对于识别效果提升的有效性:

 

作者认为加入TLE后的C3D效果提升是因为能够使用视频数据里的长时间的多方面的时序信息来对动态的appearance和motion进行编码,从而能够得到更为准确的描述。

参考:

1.https://blog.csdn.net/weixin_39718543/article/details/82851589

2.https://www.jianshu.com/p/fb4a11e76df4 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本课程适合具有一定深度学习基础,希望发展为深度学习之计算机视觉方向的算法工程师和研发人员的同学们。基于深度学习的计算机视觉是目前人工智能最活跃的领域,应用非常广泛,如人脸识别和无人驾驶中的机器视觉等。该领域的发展日新月异,网络模型和算法层出不穷。如何快速入门并达到可以从事研发的高度对新手和中级水平的学生而言面临不少的挑战。精心准备的本课程希望帮助大家尽快掌握基于深度学习的计算机视觉的基本原理、核心算法和当前的领先技术,从而有望成为深度学习之计算机视觉方向的算法工程师和研发人员。本课程系统全面地讲述基于深度学习的计算机视觉技术的原理并进行项目实践。课程涵盖计算机视觉的七大任务,包括图像分类、目标检测、图像分割(语义分割、实例分割、全景分割)、人脸识别、图像描述、图像检索、图像生成(利用生成对抗网络)。本课程注重原理和实践相结合,逐篇深入解读经典和前沿论文70余篇,图文并茂破译算法难点, 使用思维导图梳理技术要点。项目实践使用Keras框架(后端为Tensorflow),学员可快速上手。通过本课程的学习,学员可把握基于深度学习的计算机视觉的技术发展脉络,掌握相关技术原理和算法,有助于开展该领域的研究与开发实战工作。另外,深度学习之计算机视觉方向的知识结构及学习建议请参见本人CSDN博客。本课程提供课程资料的课件PPT(pdf格式)和项目实践代码,方便学员学习和复习。本课程分为上下两部分,其中上部包含课程的前五章(课程介绍、深度学习基础、图像分类、目标检测、图像分割),下部包含课程的后四章(人脸识别、图像描述、图像检索、图像生成)。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值