论文阅读--Retrieving actions in movies

最新推荐文章于 2019-07-29 12:02:20 发布

zh_yinxia

最新推荐文章于 2019-07-29 12:02:20 发布

阅读量325

点赞数

分类专栏：行为识别

行为识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文： Laptev and P. P´erez. Retrieving actions in movies. In ICCV, 2007.

电影中的动作检测

摘要

我们研究在真实的情况下人类动作的识别和定位。与以前的在受控制的环境中学习人类的行为工作相比，在这里我们训练和测试算法针对真实的电影中大量的动作变化，包括在主体外观、运动、周围的场景、视角和时空范围等方面。我们引入一个新的标注的人类动作数据集，并用它来评估几种现有的方法。我们特别专注于增强时空窗口分类器并引入结合人类动作的人体运动和形状判别模型的“关键帧启动”。关键帧启动显着提高动作检测的性能。我们展示了在电影“咖啡和香烟”两个片段中“喝酒”动作的检测结果。

1引言

人的动作是在专题片、纪录片、商业片、个人视频等的内容中出现频繁和重要的事件。“Frodo有没有把戒指扔进火山？“Trinity吻了Neo吗？”这些问题以及许多其他问题的答案，是隐藏在人类动作的视觉表现中的。因此，人类动作的自动识别，对于视频搜索应用是至关重要的，而且对于迅猛增长的专业和个人视频数据（英国广播公司的运动馆，YouTube，谷歌视频等）更为迫切。

人类动作的解释是一个公认的计算机视觉中的识别问题[ 2，3，17，6，9，10，16，19，1，20，22，25，26，27]。这是一个困难的问题，由于存在着各种变化，比如人的表情、姿势、动作和服饰等的变化，透视效果和相机运动；照明变化；遮挡和裸露；场景环境的分散效果。图1说明了这些困难的例子，电影《咖啡和香烟》中的喝酒和吸烟动作。

图1 电影“咖啡和香烟”中两个动作分类的例子（喝酒和吸烟），注意在类别内部，物体的外观（上）和人体运动（下）是非常不同的。注意两个动作类别在人的总运动与姿势方面的也是有相似性的

为了限定问题，以前的工作中使用了一些简化假设，比如（a）限制的相机运动；（b）特定的场景上下文，例如运动场地或监控场景；（c）可靠的空间分割；（d）限制视角的变化。值得注意的是，动作识别在不受限制的情况下尚未得到解决，如在专题片中的动作识别。

为了在视频索引应用中进行动作识别，需要从受限制的场景以及实验环境向通用视频中的动作识别迈出一步，本文的主要贡献是承担这样的一个步骤，并解决电影中由于主题、场景、视角、尺度以及其他因素的变化情况下，动作类的识别和定位。

我们将重点放在“原子”的动作或带有合理的按时间定义的结构的事件。比如包括“进入一个房间”，“接电话”，“握手”和“喝一杯酒”的动作。在本文中，我们特别研究的“喝酒”动作的检测，并使用电影“咖啡和香烟”和“爱之海”作为训练和测试。

为了评估问题的难度和不同方法的性能，我们首先研究在其他人类动作和运动模式中预先分割的喝酒动作样本的识别任务。作为一个有前途的动作检测方法，我们选择了一个增强时空窗口分类器，类似于Ke等提出的方法[ 10 ]。我们研究形状和运动信息的组合并扩展[ 10 ]到联合形状运动分类器。我们还测试了两种可供选择的方法：时空兴趣点[ 16 ]或通过静态关键帧识别动作。

我们接下来转向动作检测的问题。我们应用动作分类器在所有时空窗口中使用可变的空间大小和时间范围测试视频。而这样的一个详尽的方法被证明性能有限，我们引进一个称为关键帧启动的技术，将时空分类器与静态关键帧检测相结合。关键帧启动显著提高动作检测性能，这是论文的第二大贡献。所有的检测结果报告来自电影“咖啡和香烟”的两个测试片段，总有36000帧。

本文的其余部分组织如下。在下一节我们回顾相关工作。第2节介绍标注动作数据集。在第3节中，我们描述了动作的表达以及动作分类方法。在第4节中研究分类性能，第5节介绍关键帧启动。第6节展示动作检测结果，第7节总结论文。

1.1. 相关的工作

在过去已经进行了一些致力于动作的识别的实质性工作。由于通用的困难问题，通常采用一些简化的假设。三维人体跟踪与三维动作识别[ 22，26 ]通常依赖于身体部件的可靠跟踪。在几种方法中都是假设能够准确的将人从背景中分割，例如[ 2，1 ]通过随着时间的轮廓演化分析动作，这种方法是假设动作可以从身体的轮廓识别出，并不是所有动作都具有这个特点的，比如本文研究的喝酒等动作。许多方法利用动作区域的运动描述符 [25，27，6，16，3，17 ]，这些方法除了[ 16，3，17 ]，往往依赖于在动作识别之前的人的外部定位。所有这些方法被限制在有限的视角变化之内，而他们大多数没有在大的类内的变化动作的数据集上测试。

学习判别动作模型似乎是一个有前途的处理动作类别内部变化的方法。为此目的，方法[ 10，19 ]提出了有趣的动作检测和识别的替代方法，与本文的方法比较接近。然而[ 19 ]中的方法提供了按时间动作定位，[ 10 ]仅是在限制视角变化的简单场景中研究动作检测。第5节涉及到关键帧启动的想法与[ 20 ]有关，使用一组关键姿势来识别和跟踪人类的动作。

2 数据集的标注

典型的和带标注的数据集对于视觉学习和识别的重要性最近被基于内容的目标类识别所强调[ 15 ]。而对于目标识别，现在已经有综合的，成千上万的真实图像数据集，包含几十、几百个目标类（加州理工学院256，PASCAL VOC2006），这种情况在动作识别中是不同的，现有的数据集[ 16，24 ]只提供几个动作类，记录在受限制的简单的数据集中，这些数据具有简单的背景，每一个场景动作单一，静态相机等特点。这与事实形成鲜明的对比，由于在数据中增加了时间维度，以及多个目标的参与（例如，手，脸和喝酒容器）动作识别很有可能比目标识别在类别内变化更高。

2.1 训练集和测试集

缺乏综合真实数据集的一个原因是很难收集和标注真实的人类动作视频。为了克服这个问题，本文利用人类在电影中的动作进行训练和测试，我们利用电影“咖啡和香烟”（2003）提供了一个极好的“喝酒”（105个样本）和“吸烟”（141个样本）动作类的自然样本库。这些动作出现在不同的场景，他们是由不同的人发出，并从不同的视角记录。

为了训练“喝酒”类别，我们用了电影“咖啡和香烟”中6个片段41个喝酒样本，此外，使用了电影“爱之海”中的32个喝酒样本，以及我们在实验室中录制的33个喝酒样本。为了测试，我们使用了“咖啡和香烟”中的“Cousins”和“Delirium”片段，总共36000帧，含有38个喝酒动作。训练集合测试集在主题或场景中没有重叠。图2说明了我们的饮用样本中类的内部巨大的变化，以及训练集与测试集之间的差异。图6中几个场景例子，说明了在尺度、位置和视角变化较大的情况，以及周围的人以各种方式动作的混乱背景。

图2从训练集片段（左）和测试集片段（右）中选出的标注“喝酒”类动作的几个样本

2.2 标注

我们在测试集上对齐训练样本以及评价检测性能都使用喝酒动作的标注。每个喝酒动作与一个被定义为立方体R =（P，△P）的时空体有关，位置为P =（X，Y，T）^T，时空范围为 △P =（△X，△Y，△T）^T，如图3所示。长方体的空间参数是通过手工标注的头部矩形缩放和平移推断出的，比如△X＝1.6W，W为头部宽度，△Y =1.3h，h为头部的高度，为了及时的划定动作，我们手动选择运动的开始、结束（从手到脸，从脸到手）。我们还定义了动作的关键帧（当手到达口的时候）。我们的训练集中喝酒动作的时间范围在30和200帧之间变化，平均长度为70帧。对于每一个训练动作随机生成几个时间标注，这样使最终的分类器对于动作时间范围的不确定性具有鲁棒性。我们的动作标注是在线公开的。

图3（上）：喝酒动作的时空体是由喝酒动作的三帧表示。帧上的箭头对应计算的光流矢量。红色透明块表示了增强时空特征分类器一些时空特征。（下）：三种不同类型的特征（不同排列的直方图块）。组合的直方块（temp-2，spat-4）连接成一个单一的特征向量。

3 建模

通用视频场景的处理要在对动作解释的适用的方法上进行约束。例如，我们不应该在场景中预定义动作的位置和尺度，我们也不应该依靠静态背景，也应该是在任何时候只有一个动作。鉴于目前各自领域的进展情况，它可能不适合依赖于分割人体轮廓，也不适合身体部位的精确定位。另一方面，所选择的方法应该是足够有效的，可以处理几个小时的视频。

3.1 增强的动作分类器

在本文中，我们希望利用时空中人类动作的一致的“原子”结构。我们是建立在视频中的事件与图像中的目标相类似这样的直觉之上的（见[ 21 ]相关心理学上的讨论）。采取这种方法，我们可以受益于在目标类检测与识别中取得的最新进展[ 4，8，11，23 ]。特别是，我们使用离散的AdaBoost [7，23 ]学习一个级联的增强动作分类器C。

Z为视频，f_i(z)动作特征，h_i(f_i)为动作特征定义的学习器，C是由m个若学习器构成的线性组合。与[ 11 ]类似，我们下面使用与直方块特征相结合的弱学习器的fisher判别式来表示动作。

3.2 运动和形状特征

我们希望利用动作的外观和运动来识别动作。根据图像梯度直方图表示形状在目标识别问题中显示出优异的性能[ 4，11，13 ]。本文通过grad4在四个方向的箱中利用离散空间梯度直方图。为了表示运动，我们通过OF5用5-箱光流直方图[ 14，5 ]，其中4箱对应四个离散运动方向，最后一箱对应于无运动。

图4 视频特征（a）：OF5分类器所有的时空特征。高强度值表示特征的高密度；（b）：OF5分类器投影在空间坐标的特征密度（上）叠加在（d）（下）喝酒动作样品帧中；（c）：关键帧分类器空间特征密度（上），叠加在（d）（下）喝酒动作关键帧中；（d）-（e）：来自电影“爱之海”的喝酒和吸烟动作例子，以及对应的STIP特征检测[ 12 ]。

我们的动作特征f 是如图3所示的规范化的动作立方体的OF5或Grad4时空块累积直方图。我们假设动作标注（第2.2节）将规范化的动作样本在空间和时间上粗略的对齐，并提供了对应的动作特征。每个特征 f_θ(.)，θ=（x，y，z，δx，δy，δt，β，ψ），θ的定义是通过直方块的时空位置（x，y，t），时空范围（δx，δy，δt），块β的类型{Plain，Temp-2，Spat-4}和直方图ψ的类型{OF5，Grad4}。

我们的实验中规范化的动作立方体的尺寸为14×14×8直方单位，每个单位大小为5×5×5像素。这样的网格上定义的所有特征f_θ(.)数量> 10⁶。为了能够有效学习，在每轮增强我们按随机位置和时间空间范围选择10³个特征。我们的经验表明特征的随机预选不会降低最终的分类器的性能，这与[ 18 ] 类似的结论是一致的。

为了研究形状信息对动作识别的影响，我们学习两个分类器，一个仅使用光流特征（OF5分类器）和另一个适用形状和运动特征（OFGrad9分类器）。OF5分类器与Ke等人[ 10 ]的方法密切相关。为了有效计算特征向量，对于每个直方图箱子我们使用由积分视频表示的积分视频直方图[10]。考虑到使用的数据的尺寸的变化，我们使用具有多个时间空间分辨率的积分视频直方图的金字塔。

3.3 关键帧分类器

像喝酒动作是否可以使用最先进的目标识别方法从单一的帧中识别出来，问这个问题是合理的。探讨这种可能性，我们使用了一个增强的直方图分类器[ 11 ]，在喝酒动作的关键帧上进行训练，扫描不包括喝酒的随机视频帧收集背景类的训练样例（见图3和2.2节的关键帧的定义）。这个分类器的矩形直方图特征在梯度方向直方图块的14×14网格表示的关键帧上定义的。关键帧级联分类器一直训练到在训练集上的假阳性率降到5×10⁻⁵以下。

3.4 STIP-NN分类器

时空兴趣点（STIP）是最近推出的[ 12 ]并将其应用于动作识别[ 16 ]。这种局部运动描述符的类型不依赖于运动分割或其他预处理步骤，并可以应用在复杂的场景中。我们考虑将STIP与最近邻分类器（NN）（更多细节见[ 16 ]）相结合作为本文动作识别的另一种方法。对喝酒和吸烟的STIP特征如图4（d）-（e）所示。

4．分类

在这一节中，我们研究了在第3节介绍的分类方法的相对性能。为了评估问题的难度，我们特别分析了随机运动模式中的喝酒动作或类似“吸烟”类的喝酒动作的分类。

图5 喝酒动作分类（a）：吸烟行为（b）：随机运动模式（c）是（b）的部分放大。ROC曲线是通过测试样本的置信度阈值获得的。对于增强分类器的置信度是由通过级联级的数量定义的。对于STIP-NN分类器的置信度是最近的负样本归一化距离。

4.1 分类器的特性

为了更好地了解不同方法的性能，我们首先研究他们的特性。对于时空行为分类器（第3.1节）所选择的特征区域是在分类中得到大部分关注的动作增强表示部分。在图4（a）中，我们展示了在透明的颜色中根据OF5分类器选定的所有559个光流特征。随着时间的推移，从颜色密度看，很明显，这个分类器在关键帧上活性很低，而在动作开始和结束时的运动比较瞩目。当选定的时空特征投影到xy平面上（图4 b上），我们会在动作图像的较低部分观察到较显著的特征。因此分类器中最“活跃”的部分与手部运动的区域相关联，如图4（b，下）所示。

对于关键帧分类器相似的分析（第3.3）显示了它所选择的大部分（空间）特征位于关键帧的上部，如图4（c，上）所示。因此，这种分类器是，主要关注关键帧的头和人脸区域，如图4（c，下）所示。有趣的是，关键帧分类器似乎与在时间和空间所选特征的位置的时空分类器是互补的。在第5节中我们使用这个特性来联合分类器。

在第3.4节中我们还说明了时空兴趣点（STIP）与最近邻一起使用的分类器。STIP特征位于图像值时空变化大的区域。如图4（d）-（e）所检测到的喝酒和吸烟动作STIP特征往往对应手与脸之间的接触的时刻，因此，这样的特征可以提供用于事件分类的附加信息。

4.2 分类结果

为了挑战识别方法，我们对于两个类似的动作类“吸烟”和“喝酒”测试的分类性能。两个动作类的测试样本都是取自“咖啡和香烟”的测试片段。吸烟样本的标注采用第2.2节中描述的过程。所有的测试样本被裁剪和归一化到时空的一致的矩形长方体。所有的分类器使用同一组（阳性）喝酒样本进行培训。增强的级联分类器的负训练样本，来自训练视频片段假阳性动作（见第2.1节）。对于STIP-NN分类器明确地提供了吸烟动作的负训练样本。

分类结果如图5所示（a）所示，ROC曲线和相等错误率（EER）值。增强OF5和OFGrad9时空分类器获得是最好的结果。STIP-NN和关键帧分类器这两种方法性能接近，测试都不成功。关键帧的分类器的性能即使在吸烟的负样本上重新培训后，也没有明显改善。

在第二次测试中，我们对从测试片段中获得的其他随机运动样本进行喝酒动作的分类。如图5（b）-（c）所示，在这个简单的测试中，所有方法的性能都得到了改进，特别是STIP-NN和增强关键帧分类器明显提高。

综上所述，我们做了两个观察。首先，通过OFGrad9分类器的形状信息对OF5分类器的扩展，在这两个测试中并没有如我们最初的期望的提高分类性能。第二，在第二次测试中的所有方法的性能相对提高，表明可以通过互补分类器组合来改进的性能。

图6关键帧启动（左）：电影《爱之海》中的训练场景例子。关键帧的分类器的假阳性检测（红色），作为动作分类器训练中的反面例子。对于阳性训练样本（青色）关键帧检测没有显示。（右）：电影《咖啡和香烟》中测试场景的例子。关键帧启动动作分类器在检测的关键帧之间（红色）正确分类喝酒动作（青色）。

5 关键帧启动

本节描述了分别在3.1和3.3中定义的时空动作分类器和关键帧分类器的组合。组合是动机出于在4.1节中观察到两个分类器的互补特性。更具体地说，我们的目标是将关键帧分类器喝酒姿势的人的形状判别模型与时空分类器提供的动作中人的运动判别模型相结合。

本文的结合是通过关键帧启动获得的，具体过程如下。我们启动时空分类器，并通过关键帧检测器将其应用于关键帧检测。关键帧检测器首次应用到视频的所有位置、尺度和所有帧，设置较高的假阳性率（FP）10⁻³以确保所有真阳性的检测（启动程序）。然后，我们产生动作假设，以时空块为单位与检测的关键帧对齐，并且以不同的时间长度进行（考虑到动作时间长度不同）。根据时空分类器对每一个块进行分类。关键帧启动是用来在训练期间在负训练集中收集假阳性样本，这也是最终动作检测器的启动阶段。关键帧启动的事件检测如图6所示。

由于相邻视频帧的时间相关性，视频中动作分类器可接受的FP率是低于静止图像中的目标分类器的。然而，达到较低值的FP率，是很难计算。我们目前学习时空分类器的FP率约为r^st ≈5×10^-4。当使用关键帧检测的关键帧启动可以将FP率调整到r^kf= 10⁻³，结合的动作分类器的FP率变为r^str^kf ≈5×10^-7，这是一个显著的改善。因此，除了互补模型的结合，关键帧启动对动作分类器的训练还提供了一个额外的重要的好处，它也加快了测试阶段的检测。

6 检测

我们接下来在测试集上评估动作检测的性能，分为带有关键帧启动的时空分类器以及不带关键帧启动的时空分类器的性能。对于不带关键帧启动的OF5和OFGrad9分类器，我们对于测试视频中一组离散时空位置和合理的时空尺度，生成和评估一个详尽的的动作假设集。对于带有关键帧启动的动作分类器，我们按照以前章节描述的检测过程。对于每一种方法，我们对时空中具有类似的位置和大小的动作进行聚类，使用簇的大小作为检测的置信度。

四个检测方法的测试性能如图7所示，使用精度-召回曲线和平均精度（AP）值。从这个曲线我们观察到没有关键帧启动的两种方法具有相当低的性能。值得注意的是，OFGrad9方法由于附加形状信息优于OF5方法。

关键帧启动可以明显改善检测性能。因此，形状与运动信息的组合，确实对动作识别是至关重要的。实验表明分别学习形状和运动模型（OF5和关键帧分类器）而不是共同学习（如OFGrad9分类器）的优势。

为了与以前的方法比较结果，我们注意到关键帧启动方法相比没有关键帧启动的OF5方法取得了非常大的提升。如前所述，OF5分类器与[10]密切相关。因此，我们预计关键帧启动会显著提高[ 10 ]的性能。

如图8所示，关键帧启动的OF5分类器获得最强的20个检测结果，按照置信度降序的顺序排列。对于视频中主题外观、运动、周边、场景、视点和尺度有实质性的变化，大多数的检索结果是正确的。我们也观察到许多类似的非喝酒的行动（例如打电话）被检测器正确地拒绝了。

图8喝酒动作检测，采用关键帧启动的OF5分类器获得最强的20个检测结果，按照置信度降序的顺序排列（黄色为真阳性，红色为假阳性）

关键帧启动方法的检测速度（我们在Matlab实现运行部分）目前约3秒/每帧，我们相信检测速度可以至少提高十倍。

7 结论

我们解决了真实场景中在主题外观、运动，周边场景、视角大幅变化情况下人的动作的识别与定位，数据中的变化，可以隐式通过学习处理，也可以显式地以不同的时空视频分辨率搜索动作。我们特别研究在动作中结合人类外观和人类运动的判别模型，通过形状和运动线索的组合改进动作的识别和表示。我们还推出了一个电影中标注人类动作的新的数据集。

图7精度-召回曲线说明四种测试方法实现喝酒动作检测的性能

尽管这项工作研究了一种动作类（喝酒）的检测，我们期望所提出的分析方法可以推广到其他“原子”动作和相互作用，比如“握手”，“接吻”等。动作识别目前的障碍之一是缺乏自然人类动作的标注数据。这个问题应该在将来考虑。我们相信，为了提高检测性能，减少标注劳动，关于关键帧启动，这项技术可以扩展到自动的选择一个动作的几个关键帧。与其他方法的结合，如STIP[ 16 ]和基于相似性行为度量[ 17 ]可以进一步提高检测性能。