Detecting and Recognizing Human-Object Interactions

最新推荐文章于 2022-03-24 21:57:11 发布

Camellia Camellia

最新推荐文章于 2022-03-24 21:57:11 发布

阅读量333

点赞数

分类专栏：文章阅读

文章阅读专栏收录该内容

6 篇文章 0 订阅

订阅专栏

检测和识别人与物体的相互作用

为了理解视觉世界，机器不仅必须识别单个对象实例，还必须识别它们之间的交互方式。人类往往处于这种互动的中心，检测人与物的互动是一个重要的实践和科学问题。在本文中，我们的任务是检测人，动词，物体三胞胎在挑战性的日常照片。我们提出了一个以人为中心的新模型。我们的假设是，一个人的外表——姿势、衣着、动作——是一个强有力的线索，可以帮助他们定位与之互动的物体。为了利用这一线索，我们的模型学习根据被检测人的外貌预测目标物体位置上的动作特定密度。我们的模型还共同学习检测人和物体，通过融合这些预测，它可以在一个干净的、共同训练的端到端系统（我们称之为interactionnet）中有效地推断出交互三胞胎。我们对最近在coco（v-coco）和hico-det数据集中引入的动词进行了验证，在这些数据集中我们给出了数量上令人信服的结果。

1、介绍

个体实例的视觉识别，例如检测对象[10,9,27]和估计人类动作/姿态[12,32,2]，由于深度学习的视觉表征[18,30,31,17]，已经取得了显著的进步。然而，识别单个物体只是机器理解视觉世界的第一步。要理解图像中发生了什么，还需要识别各个实例之间的关系。在这项工作中，我们关注人与对象的交互。

识别人-物体相互作用的任务[13、33、6、14、5]可以表示为检测人、动词、物体三联体，在应用和研究中具有特殊的意义。从实践的角度来看，包含人的照片在每天的互联网和社交网站的上传中占了相当大的比例，因此以人为中心的理解在实践中有很大的需求。从研究的角度来看，person类别包含了一系列丰富的动作/动词，其中大多数很少被其他主题所采用(例如，说话、扔东西、工作)。与初级对象类别的识别相比，人工操作的细粒度及其与各种对象类型的交互带来了新的挑战。

本文提出了一种以人为中心的人机交互识别模型。我们的中心观察是，一个人的外表，它揭示了他们的行为和姿势，对于推断交互的目标对象可能位于何处具有很高的信息量(图1(b))。因此，通过对这种估计条件的调整，可以缩小目标对象的搜索空间。虽然经常检测到许多对象(图1(a))，但是推断出的目标位置可以帮助模型快速地选择与特定操作相关联的正确对象(图1(c))。

图1所示。检测和识别人机交互。(a)可以有许多可能的对象(绿框)与被检测到的人(蓝框)交互。(b)我们的方法根据人的外貌估计目标物体位置上的动作类型特定密度，该密度由从被检测人的s框中提取的特征表示。(c)由我们的方法检测到的人、动词、物体三联体，显示人物框、动作(切)、目标物体框和类别(刀)。(d)另一个预测行动(stand)，注意到一个人可以同时采取多个行动，而一个行动可能不涉及任何物体。

我们在更快的R-CNN框架[27]中实现了以人为中心的识别分支。具体来说，在与人相关的感兴趣区域(RoI)上，该分支对操作的目标对象位置执行操作分类和密度估计。密度估计器预测每个动作类型的4-d高斯分布，该分布对目标物体相对于人的可能相对位置进行建模。这个预测完全是基于人的外貌。这个以人为中心的识别分支，加上一个标准的对象检测分支[9]和一个简单的两两交互分支(后面将介绍)，形成了一个可以联合优化的多任务学习系统。

图2。用我们的方法检测到人机交互。每幅图像显示一个检测到的人，动词，物体三联体。

我们在具有挑战性的V-COCO (COCO中的动词)数据集[14]上评估了我们的方法InteractNet，该数据集用于检测人与对象的交互。我们的以人为中心的模型将精度从31.8提高了26%(相对)，从40.0 AP(通过称为角色AP[14]的三元组上的平均精度进行评估)，主要得益于从人的外表推断目标对象的相对位置。此外，我们还通过对新发布的HICO-DET数据集[3]进行27%的相对改进，证明了InteractNet的有效性。最后，我们的方法可以运行在约135ms /图像的复杂任务，显示出良好的实用潜力。

相关工作

目标检测：在过去的几年里，基于边界盒的对象检测器得到了稳步的改进。R-CNN是一个特别成功的方法家族[10,9,27]，它是一个两阶段的方法，第一阶段提出候选roi，第二阶段执行对象分类。区域特征可以通过RoI池操作从共享特征图中快速提取[16,9]。特征共享加快了实例级检测，并支持识别高阶交互，否则在计算上是不可行的。我们的方法是基于快速/更快的R-CNN框架。

人类行为,姿态估计：人的动作和姿势反映了他们与场景中的物体或其他人的互动。从图像中理解人类的动作[12]和姿势已经有了很大的进步。这些方法关注于人工实例，而不预测与其他对象的交互。我们依靠动作和姿态来预测场景中物体之间的互动。

视觉关系：视觉关系建模的研究[29,14,23,34]越来越受到关注。最近，Lu等人提出了一种识别来自开放世界词汇表的视觉关系的方法。这组关系包括动词(如wear)、空间(如next to)、动作(如ride)或介词短语(如drive on)。我们的关注点是相关的，但是不同。首先，我们的目标是理解以人为中心的交互，这些交互以特别多样化和有趣的方式发生。这些关系包括与对象的直接交互(例如，人切蛋糕)，而不像空间或介词短语(例如，dog next to dog)。其次，我们的目标是构建高精度的图像交互识别检测器，这是实际应用的要求。相比之下，在开放世界的识别设置中，评价精度是不可行的，导致基于回忆的评价，如[23]

人与物的交互。人与对象的交互[13,33,6]与视觉关系相关，但呈现出不同的挑战。人的行为比一般主体的行为更精细(例如，散步、跑步、冲浪、滑雪)，而且一个人可以同时做多个动作(例如，坐在椅子上喝茶和看报)。这些问题需要对人类行为及其周围的物体有更深刻的理解，而不仅仅是图像中人物周围物体的存在。准确识别人机交互可以使计算机视觉中的许多任务受益，如特定于动作的图像检索[26]、标题生成[35]、问答等[35,24]。

模型

我们现在描述检测人与对象交互的方法。我们的目标是检测和识别（human、verb、object）三组形式。为了检测交互三重态，我们必须精确地定位包含人的框和关联交互对象的框(分别用bh和bo表示)，并识别正在执行的动作a(从动作A中选择)

我们提出的解决方案将这个复杂和多方面的问题分解为一个简单和可管理的形式。我们扩展了快速R-CNN[9]对象检测框架，增加了一个以人为中心的分支，用于对每个动作进行分类并估计每个动作在目标对象位置上的概率密度。以人为中心的分支重用快速R-CNN提取的特征进行目标检测，边缘计算量小。

具体地说，给定一组候选框，Fast R-CNN为每个框输出一组对象框和一个类标签。我们的模型通过给候选的人/对象框bh、bo和动作a分配一个三元组得分S来扩展这一点。为此，我们将三元组得分分解为四个项

虽然模型有多个组件，但是基本思想很简单。sh和so是来自bh和bo的Fast R-CNN的class score包含了人和物体。我们的以人为中心的分支输出两个额外的术语。首先，sa h是分配给bh的人的动作a的分数。其次，a h是给定的人/动作对的交互目标的预测位置，根据人的出现计算得到。这反过来又被用来计算gh o a，即一个带有框bo的对象成为交互的实际目标的可能性。我们简要地给出了细节，并证明了该目标定位项是获得良好结果的关键。

接下来，我们将讨论每个组件，然后是一个扩展，它用一个专用的交互分支替换动作分类输出sa h，该分支根据人和对象的外观输出动作a的得分sa h,o。最后给出了训练和推理的细节。图3演示了整个框架中的每个组件。

3.1 模型组件

对象检测。我们网络的目标检测分支，如图3(a)所示，与速度更快的RCNN[27]相同。首先，使用区域建议网络(RPN)生成对象建议[27]。然后，对于每个提案框b，我们使用RoiAlign[15]提取特性，并执行对象分类和边界框回归，以获得一组新的框，每个框都有一个关联的so(如果框被分配给person类别，则为sh)。这些新框只在推理过程中使用;在培训期间，所有分支机构都要接受RPN提案框的培训

行动的分类。以人为中心的分支的第一个角色分配一个动作分类得分sa h每个人框bh和行动。就像在对象分类,我们与RoiAlign从黑洞中提取特征,预测得分为每个行动。因为一个人可以同时执行多个操作(例如,坐下来喝),我们的输出层由二进制乙状结肠multilabel行动分类器分类(即预测操作类不竞争)。训练目标是使地面真实动作标签与模型预测的得分sa h之间的二元交叉熵损失最小化。

目标定位。以人为中心的分支的第二个作用是根据一个人的外貌(再次表示为bh汇集的特性)预测目标对象位置。然而，仅根据bh的特征来预测精确的目标目标位置是一项具有挑战性的工作。相反，我们的方法是预测可能位置上的密度，并使用此输出和实际检测到的对象的位置来精确定位目标。

我们将目标物体位置上的密度建模为高斯函数，该函数的均值是根据人的外貌和动作来预测的。正式地说，以人为中心的分支预测h，给定人为box bh和动作a的目标对象的s4 - d平均位置。然后我们将目标定位项写为

我们可以用g测试对象框bo的兼容性和预测目标位置µa h。在上面,bo | h波的编码坐标相对于黑洞,即

这与快速R-CNN[9]中用于边界框回归的编码类似。然而，在我们的例子中，bh和bo是两个不同的天体，而且bo不一定接近或与bh大小相同。训练目标是使a h与bo|h之间平滑L1损失[9]最小化，其中bo为交互地面真值对象的位置。我们把σ当作hyperparameter经验设置为σ= 0.3使用验证集。

图4可视化了目标对象位置上的预测分布，例如人/动作对。正如我们所看到的，一个携带的外表暗示着一个物体在人的手中，一个投掷的外表暗示着一个物体在人的前面，一个坐着的外表暗示着一个物体在人的下面。我们注意到黄色虚线框描绘µa h图4所示从黑洞和推断并没有直接访问对象。

直观地说，我们的公式是基于这样的假设:从黑洞计算出来的特征包含指向动作目标的强信号，即使目标物体在黑洞之外。我们认为这种外框回归是可能的，因为人的外表为目标位置提供了强有力的线索。此外，由于这种预测是特定于行动和特定于实例的，即使我们使用单模态分布对目标位置建模，我们的公式也是有效的。在第5节中，我们讨论了我们方法的一种变体，它允许我们处理有条件的多模态分布，并预测单个动作的多个目标。

交互识别。我们的以人为中心的模型根据人的外表对行为进行评分。虽然有效，但这并不考虑目标对象的外观。为了提高模型的识别能力，并展示框架的灵活性，我们可以将(1)中的sa h替换为一个交互分支，该分支根据人和目标对象的外观对一个动作进行评分。我们用sa h o来表示这一项。

sa h,o的计算重用了sa h的计算，并根据bo提取的特征并行地执行类似的计算。两个动作分类头(logits的a维向量)的输出进行求和，并通过乙状元激活得到a的分数。这个过程如图3(c)所示。与之前一样，训练目标是最小化ground-truth动作标签与预测动作得分sa h,o之间的二元交叉熵损失。

图4。根据人的特征估计目标物体的密度。我们估计了一个4-d高斯密度，它的平均h代表作用a的目标对象的4-d偏移量(如黄色框所示);密度的方差用红色表示为(x, y)的二维平移偏移量(缩放偏移量方差不可见)。这些目标位置将与目标检测结合起来，以检测人-目标交互三胞胎。此图还显示了预测的操作及其来自person RoIs的得分。最右边的一栏显示了两个有趣的例子:即使没有目标物体，我们的模型从人体姿态预测出了合理的密度(这些预测将被目标检测模块拒绝，它不会在高密度区域找到目标)。

3.2 多任务训练

我们将学习人机交互作为一个多任务学习问题:图3中所示的所有三个分支都是联合训练的。我们的总体损失是模型中所有损失的总和，包括:(1)目标检测分支的分类和回归损失，(2)以人为中心分支的动作分类和目标定位损失，(3)交互分支的动作分类损失。这与我们在3.3中描述的级联推理形成了对比，其中对象检测分支的输出用作以人为中心的分支的输入。

我们采用以图像为中心的训练[9]。所有的损失都计算在RPN提案和地面真相框在更快的R-CNN[27]。与[9]中一样，我们从每个图像中最多抽取64个框作为对象检测分支，正框与负框的比例为1:3。以人为中心的分支最多计算16个与人类类别(即，他们的欠条与ground-truth person框的重叠部分为0.5)。交互分支的损失仅计算在正例三联体上(即， hbh, a, boi必须与一个地面真相互作用三重态相关联)。所有损失项的权重都为1，除了以人为中心的分支中的动作分类项的权重为2之外，我们发现这两个术语的性能更好

3.3 串联推断