论文题目:VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions
会议:2020 CVPR
机构:加州大学 圣巴巴拉分校 电子与计算机工程系
论文:https://arxiv.org/abs/2003.05541
代码:https://github.com/ASMIftekhar/VSGNet (pytorch)
human-object interactions (HOI) 检测任务:
对于每一个image,检测出 human 和 object 的 bounding box,以及他们之间的交互(interactions)标签;
每个human-object对可以有多个交互标签,每个场景可以有多个human和object。
作者思路
起源 - 简单的HOI办法:
1. 分别从 human 和 object 上提取特征并分析:忽略了context信息和 人-物对 的空间信息;
2. 用union boxes建模空间关系:没有对交互显式地建模
因此,作者提出多分支网络:
视觉分支Visual Branch:分别从人、物和周围环境中提取视觉特征;
空间注意分支Spatial Attention Branch:建模人-物对之间的空间关系;
图卷积分支Graph Convolutional Branch:将场景视为一个图,人与对象作为节点,并对结构交互(structural interactions)进行建模。
网络结构
1.Overview
模型输入:图像特征 F 和 人的bbox (1到H之间)和 物的bbox
(1到O之间),H和O分别是该场景中人和物的数量
模型目的:
1. 检测人h是否与物体o交互,并给出交互建议值
2. 预测动作类别概率向量 ,其大小为类别数
