Learning Spatiotemporal Features with 3D Convolutional Networks翻译

最新推荐文章于 2024-06-03 09:54:22 发布

xiaojiahuo12345

最新推荐文章于 2024-06-03 09:54:22 发布

阅读量405

点赞数

本文链接：https://blog.csdn.net/xiaojiahuo12345/article/details/85070199

版权

我们提出了一种简单而有效的方法，用于使用在大规模监督视频数据集上训练的深层三维卷积网络（3D ConvNets）进行时空特征学习。我们的发现是三重的：1）与二维ConvNets相比，3D ConvNets更适合于时空特征学习; 2）所有层级的3×3×3小卷积核心的均匀架构是3D ConvNets中性能最好的架构之一; 和3）我们学习的功能，即C3D（卷积3D），简单的线性分类器在4个不同的基准上优于最先进的方法，并且与其他2个基准上的当前最佳方法相当。另外，功能非常紧凑：仅使用10维的UCF101数据集的精度达到52.8％，由于ConvNets的快速推理，计算效率也非常高。最后，它们在概念上很简单，易于训练和使用。

互联网上的多媒体正在快速增长，导致每分钟共享越来越多的视频。为了打击信息爆炸，必须了解和分析这些视频，用于搜索，推荐，排名等各种目的。计算机视觉社区已经进行了几十年的视频分析工作，解决了诸如动作识别等不同的问题[26]，异常事件检测[2]和活动理解[23]。通过采用不同的具体解决方案，在这些个别问题上取得了相当大的进展。然而，仍然需要一种通用的视频描述符，有助于以均匀的方式解决大规模视频任务。

有效的视频描述符有四个属性：（i）它需要是通用的，因此它可以代表不同类型的视频，同时具有歧视性。例如，互联网视频可以是景观，自然场景，体育，电视节目，电影，宠物，食物等; （ii）描述符需要紧凑：因为我们正在使用数百万个视频，一个紧凑的描述符可以帮助处理，存储和检索任务更加可扩展; （iii）需要有效的计算，因为数千个视频预计会在现实系统中每分钟处理; 和（iv）它必须很容易实施。代替使用复杂的特征编码方法和分类器，即使使用简单的模型（例如线性分类器），一个好的描述符也应该很好地工作。

受过去几年在特征学习中迅速发展的图像域[24]的深刻学习突破的启发，各种预处理卷积网络（ConvNet）[16]可用于提取图像特征。这些功能是网络最后几个完全连接的层的激活，在传输学习任务中表现良好[47,48]。然而，由于缺乏运动建模，这种基于图像的深层特征并不直接适用于视频（如第4,5,6节中的实验所示）。在本文中，我们提出使用深度3D ConvNet来学习时空特征。我们经验性地表明，使用简单线性分类器的这些学习特征可以在各种视频分析任务上产生良好的性能。尽管在[15,18]之前提出了3D ConvNets，但据我们所知，这项工作在大规模监督的背景下利用3D ConvNets培训数据集和现代深层架构，以实现不同类型视频分析任务的最佳性能。这些3D ConvNets的功能将与视频中的对象，场景和动作相关的信息封装起来，使其对各种任务有用，而无需为每个任务分配模型。 C3D具有良好的描述符应具有的属性：它是通用的，紧凑的，简单的和高效的。总而言之，我们在本文中的贡献是：

•我们通过实验显示3D卷积深度网络是同时建模外观和运动的好的特征学习机。

•我们经验发现，所有层的3×3×3卷积核在有限的一组探索架构中工作最好。

•提出的具有简单线性模型的特征优于或接近4个不同任务和6个不同基准的最佳方法（见表1）。它们也是紧凑和高效的计算。

视频已被计算机视觉界研究了几十年。多年来，已经提出了诸如动作识别[26]，异常检测[2]，视频检索[1]，事件和动作检测[30,17]等诸多问题。这些作品的相当一部分是关于视频表示。 Laptev和Lindeberg [26]通过将Harris角探测器扩展到3D来提出时空兴趣点（STIPs）。 SIFT和HOG也被扩展到SIFT-3D [34]和HOG3D [19]中用于动作识别。 Dollar et al。提出了Cuboids特征进行行为识别[5]。 Sadanand和Corso建立了ActionBank来采取行动认定[33]。最近，王等人提出了改进的密集轨迹（iDT）[44]，这是目前最先进的手工制作的特征.IDT描述符是一个有趣的例子，显示时间信号可以与空间信号的处理不同。而不是将Harris角检测器扩展到3D，它从视频帧中的密集采样特征点开始，并使用光流来跟踪它们。对于每个跟踪器角，沿着轨迹提取不同的手工制作的特征。尽管它的表现很好，但是这种方法在计算上是密集型的，并且在大规模数据集中变得棘手。

随着近来可用的强大的并行机（GPU，CPU集群），以及大量的训练数据，卷积神经网络（ConvNets）[28]已经成为视觉识别的突破[10,24]。 ConvNets也被应用于两个图像[12]和视频[13]中人体姿态估计的问题。更有趣的是，这些深层网络用于图像特征学习[7]。同样，Zhou等并且在转移的学习任务上表现良好。在无人监控的环境中，深度学习也被应用于视频特征学习[27]。在Le et al。 [27]，作者使用堆叠的ISA来学习视频的时空特征。虽然这种方法在动作识别方面表现出良好的效果，但是在训练上仍然是计算密集型，并且难以扩展大规模数据集的测试。 3D ConvNets被提出用于人类动作识别[15]和医学图像分割[14,42]。 3D卷积也用于限制玻尔兹曼机器学习时空特征[40]。最近，Karpathy等[18]在大型视频数据集上训练深度网络进行视频分类。 Simonyan和Zisserman [36]使用两个流网络来实现行动识别的最佳结果。

在这些方法中，[15]中的3D ConvNets方法与我们最密切相关。该方法使用人体检测器和头部跟踪来在视频中分割人类受试者。分段视频卷被用作3卷积层3D ConvNet的输入以对动作进行分类。相比之下，我们的方法将完整的视频帧作为输入，并且不依赖于任何预处理，因此容易地扩展到大型数据集。我们也与Karpathy等人有一些相似之处。 [18]和Simonyan和Zisserman [36]关于使用全框架来训练ConvNet。然而，这些方法建立在仅使用2D卷积和2D合并操作（[18]中的Slow Fusion模型除外），而我们的模型执行3D卷积和3D池在网络中的所有层传播时间信息（进一步详细描述第3节）。我们还显示，逐渐汇集空间和时间信息，建立更深层次的网络可以取得最佳效果，我们将在3.2节讨论有关体系结构搜索的更多信息。

在本节中，我们详细介绍了3D ConvNets的基本操作，分析了3D ConvNets的不同体系结构，并详细阐述了如何在特征学习的大规模数据集上进行培训。

我们相信3D ConvNet非常适合于时空特征学习。与2D ConvNet相比，3D ConvNet能够通过3D卷积和3D合并操作更好地建模时间信息。在3D ConvNets中，卷积和合并操作在时空上执行，而在2D ConvNets中，它们只在空间上完成。图1示出了差异，应用于图像的2D卷积将输出图像，施加在多个图像上的2D卷积（将它们视为不同的通道[36]）也导致图像。因此，2D ConvNets在每次卷积运算之后就会丢失输入信号的时间信息。只有3D卷积才能保留输入信号的时间信息，从而产生输出音量。相同的现象适用于2D和3D轮询。在[36]中，虽然时间流网络采用多个帧作为输入，但是由于2D卷积，在第一卷积层之后，时间信息被完全折叠。类似地，[18]中的融合模型使用2D卷积，大多数网络在第一卷积层之后失去其输入的时间信号。只有[18]中的慢融合模型才能在其前3个卷积层中使用3D卷积和平均化池。我们认为这是在[18]研究的所有网络中表现最好的关键原因。然而，它仍然在第三卷积层之后失去所有时间信息。

在本节中，我们经验性地尝试识别3D ConvNets的良好架构。由于在大型视频数据集上训练深层网络非常耗时，我们首先尝试使用中型数据集UCF101来搜索最佳架构。我们使用较少数量的网络实验来验证大型数据集的发现。根据2D ConvNet [37]的研究结果，具有更深体系结构的3×3卷积内核的小型接收场产生最佳效果。因此，对于我们的架构搜索研究，我们将空间接收场固定为3×3，并且仅改变3D卷积内核的时间深度。

为了简单起见，从现在开始，我们引用尺寸为c×l×h×w的视频剪辑，其中c是通道数，l是帧数的长度，h和w分别是帧的高度和宽度。我们还将3D卷积和合并内核大小指向d×k×k，其中d是内核时间深度，k是内核空间大小。

在本节中，我们描述了我们训练的所有网络通用的网络设置。网络设置为将视频剪辑作为输入，并预测属于101个不同操作的类标签。所有视频帧都被调整为128×171.这大约是UCF101帧的一半分辨率。视频被分割成非重叠的16帧剪辑，然后将其用作网络的输入。输入尺寸为3×16×128×171.我们还通过在训练期间使用尺寸为3×16×112×112的随机作物来使用抖动。网络具有5个卷积层和5个合并层（每个卷积层紧随其后的是合并层），2个完全连接的层和softmax损耗层以预测动作标签。 5个卷积层从1到5的滤波器的数量分别为64,128,256,256,256。所有卷积内核具有d的大小，其中d是内核时间深度（稍后将改变这些值d）层以搜索良好的3D体系结构）。所有这些卷积层都应用适当的填充（空间和时间）和步幅1，因此从输入到这些卷积层的输出的尺寸项没有变化。所有池层都是最大池，其尺寸为2×2×2（第一层除外），步长为1，这意味着与输入信号相比，输出信号的大小减小了8倍。第一个合并层的内核大小为1×2×2，其意图是不能太早地合并时间信号，并且也能够满足16帧的剪辑长度（例如，在完全崩溃之前，我们可以暂时将因子2最多4次迭代时间信号）。两个完全连接的层有2048个输出。我们从零开始使用30个剪辑的小批量训练网络，初始学习率为0.003。学习率在每4个时代之后除以10。训练在16个时期之后停止。

为了本研究的目的，我们主要关心如何通过深层网络来聚合时间信息。为了寻找一个很好的3D ConvNet架构，我们只改变卷积层的内核时间深度di，同时保持所有其他常见设置如上所述。我们尝试两种类型的架构：1）均匀时间深度：所有卷积层具有相同的内核时间深度;和2）变化的时间深度：内核时间深度在层次之间变化。对于均匀设置，我们实验了具有d等于1,3,5和7的内核时间深度的4个网络。我们将这些网络命名为深度d，其中d是其均匀时间深度。注意，深度1网络相当于在单独的帧上应用2D卷积。对于不同的时间深度设置，我们实验了具有时间深度增加的两个网络：3-3-5-5-7和减少：7- 5-5- 3-3从第一到第五卷积层。我们注意到，所有这些网络在最后一个池层具有相同的输出信号大小，因此它们对于完全连接的层具有相同数量的参数。由于不同的核时间深度，它们的参数数量在卷积层上是不同的。与完全连接的层中的数百万个参数相比，这些差异是相当微小的。例如，上述时间深度差为2的网络中的任何两个仅具有彼此较少或更多的17K个参数。参数数量的最大差异在于深度1净值和深度7网络之间，深度-7网络具有51K以上的参数，小于每个网络17.5百万个参数的0.3％。这表明网络的学习能力是可比的，参数数量的差异不应影响我们的架构搜索结果。

我们在UCF101的1号火车上训练这些网络。图2显示了UCF101测试分裂时不同架构的剪辑精度。左图显示了具有均匀时间深度的网络的结果，右图显示了改变内核时间深度的网络的结果。深度-3在均匀网络中表现最好。请注意，深度1比其他网络明显更差，我们认为深度1由于缺乏运动建模。与不同的时间深度网相比，深度3是表现最好的，但差距较小。我们还尝试更大的空间接收场（例如5×5）和/或全输入分辨率（240×320帧输入），并且仍然观察到类似的行为。这表明3×3×3是3D ConvNets的最佳内核选择（根据我们的实验子集），3D ConvNets始终优于2D ConvNets进行视频分类。我们还验证了3D ConvNet在大规模内部数据集（即I380K）上的性能优于2D ConvNet。

我们上一节的发现表明，具有3×3×3卷积内核的均匀设置是3D ConvNets的最佳选择。这个发现也与2D ConvNets中类似的发现一致[37]。使用大型数据集，可以根据机器内存限制和计算负担能力，尽可能深入地研究具有3×3×3内核的3D ConvNet。使用目前的GPU内存，我们设计了我们的3D ConvNet，具有8个卷积层，5个池层，其次是两个完全连接的层，以及一个softmax输出层。网络架构如图3所示。为了简单起见，从现在开始我们称之为“净C3D”。所有3D卷积滤波器均为3×3×3，步幅为1×1×1。除了1号内核大小为1×2×2的pool1，所有3D合并层均为2×2×2，步幅为2×2×2，步长1×2×2，意在保持早期的时间信息。每个完全连接的层有4096个输出单元。

为了学习时空特征，我们在体育1M数据集[18]上训练我们的C3D，这是目前最大的视频分类基准。数据集由110万个体育视频组成。每个视频属于487个运动类别之一。与UCF101相比，Sports-1M具有5倍的类别和100倍的视频数量。

训练是在Sports-1M训练上完成的。由于Sports-1M有许多长视频，我们从每个训练视频中随机提取出5秒长的两个剪辑。剪辑大小调整为128×171帧。在训练中，我们随机将输入剪辑剪辑成16×112×112作物，用于空间和时间抖动。我们也以50％的概率水平翻转它们。培训由SGD完成，小批量大小为30个例子。初始学习率为0.003，每150K次迭代除以2。优化在1.9M迭代（约13个时期）停止。除了从头开始训练的C3D网络外，我们还从在I380K上预先训练的模型中对C3D网进行了微调。

表2显示了与DeepVideo [18]和Convolution pooling相比，我们的C3D网络的结果[29]。我们每个剪辑只使用一个中心裁剪，并通过网络进行剪辑预测。对于视频预测，我们平均剪辑预测从视频中随机提取的10个剪辑。值得注意的是比较方法之间的差异。 DeepVideo和C3D使用短片段，而卷积池[29]使用更长的剪辑。 DeepVideo使用更多的作物：每个剪辑4个作物，每个视频80个作物，C3D分别使用1和10。从零开始训练的C3D网络产生了84.4％的准确度，从I380K预训练模式中精心调整的C3D网络在视频前5个精度下产生85.5％。两个C3D网络都胜过DeepVideo的网络.C3D比[29]的方法还要低5.6％。然而，这种方法使用120帧长片段的深度图像特征的卷积集，因此它不能直接与C3D和DeepVideo相媲美，它可以在较短的片段上运行。我们注意到，该方法的剪辑和视频的前1个精度的差异很小（1.6％），因为它已经使用120帧剪辑作为输入。在实践中，卷积集或更复杂的聚合方案[29]可以应用于C3D特征之上，以提高视频命中性能。

训练后，C3D可用作其他视频分析任务的特征提取器。为了提取C3D特征，视频被分割成16帧长的剪辑，在两个连续的剪辑之间具有8帧重叠。这些剪辑被传递到C3D网络以提取fc6激活。对这些剪辑fc6激活进行平均以形成4096-dim视频描述符，然后跟随L2标准化。在所有实验中，我们将此表示称为C3D视频描述符/特征，除非我们明确指出差异。

我们使用[46]中解释的反卷积方法来了解C3D的内部学习。我们观察到，C3D首先关注前几帧的外观，并跟踪后续帧中的显着运动。图4可视化两个C3D conv5b特征图的去卷积，最大的激活投射回图像空间。在第一个例子中，该功能集中在整个人身上，然后跟踪其余框架上极点性能的运动。类似地，在第二个例子中，它首先关注眼睛，然后跟踪眼睛周围发生的运动，同时应用化妆。因此，C3D与标准2D ConvNets的不同之处在于它有选择地参与运动和外观。我们在补充材料中提供更多的可视化，以更好地了解学习功能。

我们评估UCF101数据集上的C3D特征[38]。数据集由101个人类动作类别的13,320个视频组成。我们使用此数据集提供的三个拆分设置。

我们提取C3D特征并将其输入到用于训练模型的多类线性SVM。我们使用3个不同的网络实验C3D描述符：在I380K上训练的C3D，在Sports-1M上训练的C3D，以及在I380K上训练的C3D，并在Sports-1M上进行微调。在多网络设置中，我们连接这些网络的L2标准化的C3D描述符。

我们将C3D特征与几个基准进行比较：目前最好的手工制作功能，即改进的密集轨迹（iDT）[44]和流行的深层图像特征，即Imagenet [16]，使用Caffe的Imagenet预列车模型。对于iDT，我们使用iDT的每个特征通道（HOG，HOF，MBHx和MBHy）的码本大小为5000的码字表示。我们使用L1范数分别对每个通道的直方图进行归一化，并连接这些归一化的直方图以形成一个视频的25K特征向量。对于Imagenet基线，类似于C3D，我们为每帧提取Imagenet fc6特征，平均这些帧特征来制作视频描述符。对于这两个基线，也可以使用多类线性SVM进行公平比较。

表3显示了C3D与两个基线和当前最佳方法相比的动作识别准确度。上半部分显示两个基线的结果。中间部分提供仅使用RGB帧作为输入的方法。而下面的部分报告了使用所有可能的特征组合（例如光学流，iDT）的所有当前最佳方法。

C3D微调网络在前面描述的三个C3D网络中表现最好。然而，这三个网络之间的业绩差距很小（1％）。从现在开始，除非另有说明，否则我们将调整后的网络称为C3D。 C3D仅使用4,096个尺寸的网络，其精度为82.3％。 C3D带3个网络将精度提高到85.2％，尺寸增加到12个288.C3D与iDT结合进一步提高了90.4％的精度，而与Imagenet相结合，我们观察到仅0.6％的改善。这表明C3D可以很好地捕捉外观和运动信息，因此与Imagenet相结合没有任何好处，Imagenet是基于外观的深层特征。另一方面，将C3D与iDT相结合是有益的，因为它们彼此互补。事实上，iDT是基于光流跟踪和低级梯度直方图的手工制作功能，而C3D则捕获高级抽象/语义信息。

3网络C3D分别达到85.2％，比iDT和Imagenet基线分别提高9％和16.4％。在唯一的RGB输入设置中，与基于CNN的方法相比，我们的C3D在[36]中优于深度网络[18]和空间流网络，分别为19.8％和12.6％。 [36]的深层网络[18]和空间流网络都使用AlexNet架构。在[18]中，网络经过预先训练的Sports-1M模型，[36]中的空间流网络由Imagenet预训练模型进行了微调。我们的C3D在网络架构和基本操作方面与这些CNN基础方法不同。此外，C3D已经在Sports-1M上进行了培训，并且在没有任何费用的情况下被使用。与循环神经网络（RNN）的方法相比，C3D在长期循环卷积网络（LRCN）[6]和LSTM复合模型[39]方面都优于14.1％和9.4％。只有RGB输入的C3D在使用光流和RGB以及时间流网络时仍然优于这两种基于RNN的方法[36]。然而，C3D需要与iDT组合以优于双流网络[36 ]，其他基于iDT的方法[31,25]以及专注于长期建模的方法[29]。除了有希望的数字外，与其他方法相比，C3D还具有简单的优点。

C3D紧凑：为了评估C3D特征的紧凑性，我们使用PCA将特征投影到较低维度，并使用线性SVM报告UCF101 [38]上的投影特征的分类精度。我们用iDT [44]和Imagenet特征[7]应用相同的过程，并比较图5中的结果。在仅有10个维度的极限设置下，C3D精度为52.8％，比准确度高出20％的Imagenet和iDT，约为32％。在50和100度下，C3D的精度分别为72.6％和75.6％，比Imagenet和iDT好10-12％。最后，具有500个维度，C3D能够实现79.4％的精度，比iDT好6％，比Imagenet好11％。这表明我们的功能既紧凑又具有歧视性。这对于低成本和快速检索至关重要的大规模检索应用非常有用。

我们定性评估我们学习的C3D功能，以通过可视化嵌入在另一个数据集上的学习功能来验证它是否是视频的一个很好的通用功能。我们从UCF101随机选择100K个剪辑，然后使用Imagenet和C3D的功能提取这些剪辑的fc6功能。然后使用t-SNE将这些特征投影到二维空间[43]。图6显示了Imagenet和我们的C3D在UCF101上的特征嵌入功能。值得注意的是，我们没有进行任何finetuning，因为我们想验证这些功能是否显示出跨数据集的良好的泛化能力。我们定量观察C3D优于Imagenet。

xiaojiahuo12345

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Learning Spatiotemporal Features with 3D Convolutional Networks翻译

我们提出了一种简单而有效的方法，用于使用在大规模监督视频数据集上训练的深层三维卷积网络（3D ConvNets）进行时空特征学习。我们的发现是三重的：1）与二维ConvNets相比，3D ConvNets更适合于时空特征学习; 2）所有层级的3×3×3小卷积核心的均匀架构是3D ConvNets中性能最好的架构之一; 和3）我们学习的功能，即C3D（卷积3D），简单的线性分类器在4个不同的基准上...
复制链接

扫一扫