1. Motivation
目前现有的HOI(任务交互)领域的方法是one-stage或者two-stage的。
Current approaches either decouple HOI task into separated stages of object detection and interaction classification or introduce surrogate interaction problem.
本文将transformer以端到端的形式应用于human object interaction(HOI)检测工作中。
2. Relation Work
2.1 HOI’s Goal
The goal of HOI detection aims at localizing human and object, as well as recognizing the interaction between them. 如图1所示,分别是之前的one-stage,two-stage方法以及本文提出的end-to-end方法的比较。
2.2 Two-Stage HOI Detection
如Two-stage的方法是将HOI detection分解为了目标检测以及交互分类,确切来说,人和物的目标检测是通过预训练的目标检测器得到的,然后交互分类是通过成对结合的人-物的proposals计算。这会导致子优化问题。因为产生的human-object proposals对于交互分类来说可能是低质量的,同时成对的proposals需要被处理,会造成冗余的计算开销。
The independent optimization on two sub-problems may lead to sub-optimal solution.
本文提出了一种新的端到端人类对象交互检测方法——HOI Transformer,通过Transformer架构解决HOI检测问题,避免了两阶段方法的子优化问题和一阶段方法的预定义交互提案局限。实验表明,该方法在HICO-DET和V-COCO数据集上表现优越。
最低0.47元/天 解锁文章
1247

被折叠的 条评论
为什么被折叠?



