CVPR 2019|Transferable Interactiveness Knowledge for Human-阅读笔记Interaction Detection

最新推荐文章于 2024-07-26 13:24:37 发布

ycolourful

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量243

点赞数

分类专栏： human object interaction 文章标签：深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_59340037/article/details/124364864

版权

human object interaction 专栏收录该内容

12 篇文章 5 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/2101.10292.pdf
代码地址： https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network

本文为了探索人与物之间是否存在交互的互动性，这些互动性可以通过HOI数据集学习到，并且能够缩小不同HOI种类设置之间的差距，本文的核心思想利用互动性网络从多个HOI数据集中学习常见的互动性知识，并在推理HOI分类之前进行交互抑制（Non-Interaction Suppression,NIS）。由于交互性的泛化能力，交互性网络是一种可转移的知识学习者，可以结合其他模型，得到理想的效果，利用人体实例和身体部位的特征结合起来学习分层结构中的交互性，如实例级和身体部位级的交互性。在HICO-DET，V-COCO,PaStaNet-HOI数据集评估该方法。

介绍

交互性包含了很多重要的基础信息，因此使得更容易进行跨数据集的传输，我们提出了一个交互性知识学习方法，该方法可以跨数据集学习交互性，并且可以用于任意数据集。该方法采用两阶段来识别HOI，首先判断人物对之间是否存在交互，然后对其分类。该方法相比其他方法的优势在于能够整合其他数据集的信息
在这里插入图片描述
本文提出了一个两阶段的分层分类方法（TIN），由三个网络组成，Representation Network(特征提取，称为R)，HOI网络（分类器，称为C），交互性网络（鉴别器，成为D），D用于二分类（交互或非交互）C与D可以一起训练来同时学习HOI和交互性知识。由于其输入通常是非交互边占主要部分，因此，利用从HOI标签转换而来的二进制交互性标签，该模型将获得更好的性能。另一方面D只需要通过HOI类别的二进制标签，这些交互性是可转移的和可重用的，因此D可以从多个数据集学习交互性，并分别应用于每个数据集。在测试时，使用两阶段的方法，首先D评估人物对的交互性，将密集的HOI图转换为稀疏的图。然后使用C对剩下的稀疏图的边进行分类，
在这里插入图片描述
本文提出了一个分层的框架，首先利用人/物的外观和空间关系作为实例级的特征来学习实例之间的交互性，并且交互性与人体部位相关。和日常物体的交互，只有一部分部位会参与其中，如看书时，只有头和手与书有关系，而下方部位与书不会有交互，因此我们定义了物体与身体部位之间的交互（部位交互性），利用身体部位特征与物体特征进行匹配学习。实例交互性与部位交互性之间也具有内在的关系，他们之间的关系符合多实例学习（MIL）。当且仅当至少一个人体部位与物体发生交互时，人与物体才发生交互，因此当输入两个级别的目标时，我们可以构建两个级别之间的一致性，具有更高交互性分数的部位需要更加关注，可以使用注意力机制来突出HOI中的重要部位。

研究方法

使用图来描述该模式，分别使用节点和边来表示实例和关系，那么HOI图就可以表示为G=(V,E),其中V表示节点，包含人物节点V_h,和物体节点V_o,E表示人与物之间的边，因此我们的目标是找出在边上有正确标签的稀疏图G^*
网络结构如图所示：
在这里插入图片描述

交互性网络
交互性网络D适用于二进制分类:交互和非交互，我们按层推断交互性：

实例级
利用人/物的外观和空间关系作为实例级特征来预测人与物之间的交互性
部位级
利用身体部位特征深入了解不同身体部位和物体之间的交互性
我们利用这两级交互性之间的一致性来引导学习.D中含有4中流（人，物，空间姿势，部位），他们关注于HOI的不同元素，交互性网络D如下图所示：

（1）three streams with instance feature
人和物体的视觉外观包含了学习交互性的必要信息，除此之外，也可以利用空间位置和人的姿态信息来区分交互对与非交互对。因此结合视觉外观，空间位置和姿势信息是交互性判断的关键，D需要将这些信息一起编码来学习交互性知识，采用多流结构对这些信息进行编码：人，物，空间姿势流，以及以实例为中心的注意力模块。
人和物体流：对于人与物体的外观，我们从R中提取ROI池化特征，然后将其输入残差块H^D,O^D,然后采用全局平均池化和FCs之后，这两个流的特征分别表示为f_h,f_o.
空间姿势流：输入包含一个特殊的6464的姿势图，给出人与物体对的联合边界框，我们使用姿态估计来估计17个身体关键点，将这些关键点用0.15-0.95的不同灰度值的直线连接起来以表示不同的身体部位，隐式编码姿态特征。将其他区域设置为0，最后重新调整联合边界框到6464重建姿势图。将姿势图与人和物体的特征图连接起来，就形成了空间姿势流的输入，接下来使用两个卷积层和最大池化以及两个1024的全连接层来提取三张图的特征f_sp,最后将这三个流的输出连接起来，用于接下来的交互区分。
（2） Part Stream with Part-Level Features
由于大量身体部位与物体之间的关系很难进行标注，因此在交互识别中往往会更加关注于实例级的交互识别，可以通过对交互性的定义来解决这个问题，为了对部位进行定位，利用姿态估计来构建10个部位边界框，每个边界框以被检测到的关节为中心，对于部位流，从被检测的部位边界框提取ROI池化特征作为部位特征。f_pi对应第i个部位, 1 ≤ i ≤ 10.
（3）二值交互性分类
总共有11个交互性二值分类器与D的结构类似，10个用于表示部位交互性，1个用于表示实例交互性，他们都使用上面的4个流中提取的特征作为输入，并通过连接操作和全连接层构建。

部位级分类器:
第i个部位特征f_pi和f_h,f_o,f_sp连接起来并输入FC然后使用sigmoid用于产生部位交互性的概率
p_(pi,o)^D^= Sigmoid(s_(pi,o)^D), s_(pi,o)^D表示第i个部位的部位交互性分数，可以利用部位交互性作为注意力来选择重要的部位，
在这里插入图片描述
重新加权后，这些传递到下一个实例级分类器的信息将会被过滤掉，因此，该模型会更加关注于重要的部位而忽略其他部位引起的噪声。

实例级的分类器:
将10个部位特征f_pi连接起来,并表示为f_p,将f_h,f_o,f_sp,f_p作为输入,并产生实例级的交互概率p_(h,o)^D=Sigmoid(s_(h,o)^D),我们可以通过HOI 标签转化而来的二进制标签和p_(h,o)^D构建一个二值分类损失L^Dh,s_(h,o)^D就是交互性分数.
(4)交互一致性
当人与物体存在交互性性时,那么至少有一个部位与其发生交互,当没有交互时,那么一个部位也没与其发生交互.在理论上来说,实例的交互性等同于所有部位的交互性的OR操作,我们可以使用max pooling来实现OR操作,满足与MIL范式:
在这里插入图片描述

我们也使用p_(hp,o)^D来产生另一个二值分类器损失L^Dhp,这里的max表示最大池化操作,我们使用预测的交互性分数来构建一致性损失(一致性损失能够避免不同级别的信息之间的冲突并能加强监督指导):
在这里插入图片描述
交互性辨别器D的最终损失可以表达为:

(5)低级实例抑制函数
提出低级实例抑制函数(LIS)增强高级和低级目标检测之间的差别,给出一个带有所有可能边的HOI图G,D 将会评估人物对(v_h,v_o)之间的交互性,并给出一个分数s_(h,o)^D,然后使用LIS根据人/物检测质量来调节这个分数,当边界框的分数高于阈值时,就会有较高的权重(T,k,w都是采用数据驱动的方式决定的),从而达到强调高等级的人/物,并将高级的与低级的实例分开:
在这里插入图片描述

在这里插入图片描述
2. 非交互抑制推理
经过交互性学习之后,在测试时抑制非交互候选对,即非交互抑制(NIS),将测试集中被检测的实例进行完全配对,生成一个人和物的密集图G,利用D来计算所有边的交互性分数,然后对满足NIS条件的边进行抑制(交互性分数低于阈值α),那么图G就会转变为近似稀疏HOI图G’,经过C之后的(v_h,v_o)的HOI分类的的分数向量S_(h,o)^C可以表示为(Γ′表示输入特征):
在这里插入图片描述
(v_h,v_o)最终的HOI分数向量可以表示为(也就是将通过D和C得到的分数乘起来):

实验

使用faster R-CNN和ResNet-50作为R,C由3个流组成,Γ′是通过实例提取的外观,空间位置,以及上下文特征,
该方法能够检测比较度杂的HOI,包括一个人物对之间存在多种交互,和一个人与不同的物体有多个交互,多个人与物体具有交互,多个人与多个物体的不同交互,
在这里插入图片描述

实验结果,在HICO-DET上达到最高20.93%,在V-COCO上达到49.1%
在这里插入图片描述

结论

本文的创新点主要是以下几个方面:

在进行HOI分类之前,先判断交互性,如果对应的人与物体之间没有交互性,那么就不需要进行接下来的HOI判断.
该方法利用了人和物体的外观特征,空间关系,人体的部位特征进行综合判断交互性.首先判断部位的交互性,采用注意力机制,选择最重要的部位,然后判断实例的交互性,最后判断他们之间的一致性,从而避免不同级别特征的冲突性.(其损失也是这3中损失之和)
采用低级实例抑制(LIS)函数,抑制掉低级的实例,采用非交互性抑制(NIS),抑制掉不存在交互性的人物对

ycolourful

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2019|Transferable Interactiveness Knowledge for Human-阅读笔记Interaction Detection

论文地址：https://arxiv.org/pdf/2101.10292.pdf代码地址： https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network本文为了探索人与物之间是否存在交互的互动性，这些互动性可以通过HOI数据集学习到，并且能够缩小不同HOI种类设置之间的差距，本文的核心思想四利用互动性网络从多个HOI数据集中学习常见的互动性知识，并在推理HOI分类之前进行交互抑制（Non-Interaction Suppr
复制链接

扫一扫