人物交互(Human Object Interaction,HOI)也即是人-物体交互检测,主要目的是定位人体、物体、并识别他们之间的交互关系,就是检测图像中的<人体,动词,物体>三元组。HOI检测旨在利用人体、物体以及人物对的特征将人与物体之间的交互进行关联,从而实现对图像或视频中的动作分类。
https://github.com/s-gupta/v-coco
git clone --recursive https://github.com/s-gupta/v-coco.git
HOI检测的方法
1.传统方法
手工提取局部特征,如颜色,HOG,SIFT、使用贝叶斯模型进行HOI分类。
2.深度学习
2.1 两阶段方法
就是把HOI检测任务分为目标检测和交互推理两个子任务。目标检测阶段使用预训练的目标检测模型检测图像中的人和物体,然后将其逐一匹配为成对的建议,而交互推理阶段则是根据人-物体对的特征来推断交互。
2018年提出的基于人-物体区域的卷积神经网络(HO-RCNN)对HOI检测的研究具有十分重要的意义。它是一个多流网络结构,包含三个流:一个人流、一个物体流以及一个成对流。其中人流和物体流分别编码人和物体的外观特征,而成对流的目的则是编码人和物体之间的空间关系。
2.1.1融入注意力的HOI检测方法
ICAN:在HO-RCNN的基础上提出,采用以实例为中心的注意力模块来提取与局部区域(人/物框)的外观特征互补的上下文特征,以提高HOI检测效果,ICAN的注意力图是自动学习的,并与网络的其余部分联合训练。
注意力机制的加入有效提高了HOI检测模型提取上下文特征的能力,
由于其分支结构与HO-RCNN相比并没有明显变化,仍然只是利用人与物体的视觉特征以及空间特征来进行推理判断。
2.1.2融入图模型的HOI检测方法
图模型的基本思想是用节点表示人和物体,用边表示人和物体之间的交互&