HICO-DET：适合踏入 HOI detection 领域的初学者阅读的论文......

最新推荐文章于 2025-03-13 17:53:41 发布

计算机视觉从零学

最新推荐文章于 2025-03-13 17:53:41 发布

阅读量1.8k

点赞数

分类专栏： HOI 文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43889476/article/details/126675478

版权

本文介绍了HO-RCNN，一个用于检测静态图像中人-物交互的深度学习框架。文章提出了一个新的大型数据集HICO-DET，包含了丰富的实例注释，用于评估HOI检测。HO-RCNN采用多流结构，通过提取人、物和空间关系特征来提升HOI检测性能。实验表明，HO-RCNN在HICO-DET上表现优越，特别是在利用交互模式处理空间关系方面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Learning to Detect Human-Object Interactions

摘要

我们研究了在静态图像中检测人-物交互（HOI）的问题，定义为预测一个人和一个对象的边界框，该边界框带有一个交互类标签，将他们连接起来。HOI检测是计算机视觉中的一个基本问题，因为它提供了有关被检测对象之间交互的语义信息。我们引入了HICO-DET，这是一个新的用于HOI检测的大型基准，通过使用实例注释来增强当前的HICO分类基准。为了解决这个问题，我们提出了基于人类目标区域的卷积神经网络（HO-RCNN）。HO-RCNN的核心是交互模式，这是一种新的DNN输入，用于描述两个边界框之间的空间关系。在HICO-DET上的实验表明，我们的HO-RCNN通过交互模式利用人-物空间关系，显著提高了HOI检测的性能。

1.导言

人机交互的视觉识别（例如“骑马”、“吃三明治”）是计算机视觉中的一个基本问题。成功的HOI识别不仅可以识别对象，还可以识别对象之间的关系，提供对视觉场景语义的更深入理解，而不仅仅是对象识别[19,32,12]或对象检测[8,29,23,3]。如果没有HOI识别，图像只能被解释为对象边界框的集合。人工智能系统只能获取诸如“棒球棒在右角”和“一个男孩靠近棒球棒”之类的信息，但不能获取“一个戴帽子的男孩正在挥动棒球棒”之类的信息。HOI识别最近在计算机视觉领域引起了越来越多的关注[10,34,33,6,25,4,5,28,13]。虽然取得了重大进展，但识别HOI的问题仍远未得到解决。一个关键问题是，这些方法已经使用具有有限HOI类别的小型数据集评估，例如PASCAL VOC[7]中的10个类别和Stanford 40 Actions[35]中的40个类别。此外，这些数据集仅为每个对象类别提供有限的交互类。例如，在Stanford 40 Actions中，“修理汽车”是唯一涉及对象“汽车”的HOI类别。目前尚不清楚一个成功的算法是否能够真正识别交互（例如“修复”），或者它是否只是识别当前对象（例如“汽车”）。[1]最近提出了这个问题，它引入了“人类与公共对象交互”（HICO），这是一个大型图像数据集，包含600个HOI类别，超过80个公共对象类别，并针对每个对象类别提供了一组不同的交互。[1]中使用HICO为图像级HOI分类提供了第一个基准，即对图像中是否存在HOI类进行分类。

虽然HICO的引入可能会促进HOI分类研究的进展，但HOI识别仍然无法完全解决，因为只有HOI分类计算机无法准确定位图像中当前的交互。为了能够将HOIs定位到图像区域，我们提出了一个新的问题：检测静态图像中的人-物交互。HOI检测的目标不仅是为了确定是否存在HOI，而且是为了估计它们的位置。在形式上，我们将HOI检测问题定义为预测一对边界框，首先针对一个人，其次针对一个对象，并识别交互类，如图1所示。这与传统的对象检测不同，后者的输出仅为一个带有类标签的边界框。通过识别被检测对象之间的交互关系，解决HOI检测将弥合HOI分类和对象检测之间的差距。

本文的贡献有两个方面：（1）通过使用实例注释来扩充当前的HICO分类基准，我们引入了第一个大型HOI检测基准HICO-DET。HICO-DET提供了超过150K个带注释的人类对象对实例，跨越了HICO中的600个HOI类别，即每个HOI类别平均有250个实例。（2）我们提出了基于人类对象区域的卷积神经网络（HORCNN），这是一个基于DNN的框架，它将基于区域的对象检测器[9,8,29]从检测单个边界框扩展到了一对边界框。HO-RCNN的核心是交互模式，这是一种新的DNN输入，用于描述两个边界框之间的空间关系。在HICO-DET上的实验表明，我们的HO-RCNN通过交互模式利用人-物空间关系，显著提高了HOI检测的性能。数据集和代码可在http://www.umich.edu/∼ywchao/hico/上公开获取。

2.相关工作

HOI识别自2009年以来，有关HOI认可的工作激增。这些工作中产生的结果根据动作分类[34,33,6,25,4,5,28,13]、目标检测[34]或人体姿势估计[34,5]进行评估；没有一项直接通过HOI检测进行评估。Chao等人[1]最近为HOI分类提供了一个大型图像数据集“HICO”[1,26]。然而，HICO并没有提供用于评估HOI检测的ground-truth注释，这促使我们通过增强HICO来构建一个新的基准。我们还重点介绍了其他一些最新的数据集。Gupta和Malik[11]通过将交互的人和对象联系起来，并标记它们的语义角色࿰

最低0.47元/天解锁文章