HICO-DET:适合踏入 HOI detection 领域的初学者阅读的论文......

Learning to Detect Human-Object Interactions

摘要

我们研究了在静态图像中检测人-物交互(HOI)的问题,定义为预测一个人和一个对象的边界框,该边界框带有一个交互类标签,将他们连接起来。HOI检测是计算机视觉中的一个基本问题,因为它提供了有关被检测对象之间交互的语义信息。我们引入了HICO-DET,这是一个新的用于HOI检测的大型基准,通过使用实例注释来增强当前的HICO分类基准。为了解决这个问题,我们提出了基于人类目标区域的卷积神经网络(HO-RCNN)。HO-RCNN的核心是交互模式,这是一种新的DNN输入,用于描述两个边界框之间的空间关系。在HICO-DET上的实验表明,我们的HO-RCNN通过交互模式利用人-物空间关系,显著提高了HOI检测的性能。

1.导言

人机交互的视觉识别(例如“骑马”、“吃三明治”)是计算机视觉中的一个基本问题。成功的HOI识别不仅可以识别对象,还可以识别对象之间的关系,提供对视觉场景语义的更深入理解,而不仅仅是对象识别[19,32,12]或对象检测[8,29,23,3]。如果没有HOI识别,图像只能被解释为对象边界框的集合。人工智能系统只能获取诸如“棒球棒在右角”和“一个男孩靠近棒球棒”之类的信息,但不能获取“一个戴帽子的男孩正在挥动棒球棒”之类的信息。HOI识别最近在计算机视觉领域引起了越来越多的关注[10,34,33,6,25,4,5,28,13]。虽然取得了重大进展,但识别HOI的问题仍远未得到解决。一个关键问题是,这些方法已经使用具有有限HOI类别的小型数据集评估,例如PASCAL VOC[7]中的10个类别和Stanford 40 Actions[35]中的40个类别。此外,这些数据集仅为每个对象类别提供有限的交互类。例如,在Stanford 40 Actions中,“修理汽车”是唯一涉及对象“汽车”的HOI类别。目前尚不清楚一个成功的算法是否能够真正识别交互(例如“修复”),或者它是否只是识别当前对象(例如“汽车”)。[1]最近提出了这个问题,它引入了“人类与公共对象交互”(HICO),这是一个大型图像数据集,包含600个HOI类别,超过80个公共对象类别,并针对每个对象类别提供了一组不同的交互。[1]中使用HICO为图像级HOI分类提供了第一个基准,即对图像中是否存在HOI类进行分类。

虽然HICO的引入可能会促进HOI分类研究的进展,但HOI识别仍然无法完全解决,因为只有HOI分类计算机无法准确定位图像中当前的交互。为了能够将HOIs定位到图像区域,我们提出了一个新的问题:检测静态图像中的人-物交互。HOI检测的目标不仅是为了确定是否存在HOI,而且是为了估计它们的位置。在形式上,我们将HOI检测问题定义为预测一对边界框,首先针对一个人,其次针对一个对象,并识别交互类,如图1所示。这与传统的对象检测不同,后者的输出仅为一个带有类标签的边界框。通过识别被检测对象之间的交互关系,解决HOI检测将弥合HOI分类和对象检测之间的差距。

图片

本文的贡献有两个方面:(1)通过使用实例注释来扩充当前的HICO分类基准,我们引入了第一个大型HOI检测基准HICO-DET。HICO-DET提供了超过150K个带注释的人类对象对实例,跨越了HICO中的600个HOI类别,即每个HOI类别平均有250个实例。(2) 我们提出了基于人类对象区域的卷积神经网络(HORCNN),这是一个基于DNN的框架,它将基于区域的对象检测器[9,8,29]从检测单个边界框扩展到了一对边界框。HO-RCNN的核心是交互模式,这是一种新的DNN输入,用于描述两个边界框之间的空间关系。在HICO-DET上的实验表明,我们的HO-RCNN通过交互模式利用人-物空间关系,显著提高了HOI检测的性能。数据集和代码可在http://www.umich.edu/∼ywchao/hico/上公开获取。

2.相关工作

HOI识别 自2009年以来,有关HOI认可的工作激增。这些工作中产生的结果根据动作分类[34,33,6,25,4,5,28,13]、目标检测[34]或人体姿势估计[34,5]进行评估;没有一项直接通过HOI检测进行评估。Chao等人[1]最近为HOI分类提供了一个大型图像数据集“HICO”[1,26]。然而,HICO并没有提供用于评估HOI检测的ground-truth注释,这促使我们通过增强HICO来构建一个新的基准。我们还重点介绍了其他一些最新的数据集。Gupta和Malik[11]通过将交互的人和对象联系起来,并标记它们的语义角色࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
this.$emit是Vue.js中用于触发自定义事件并传递数据给父组件的方法。在子组件中使用this.$emit可以触发父级组件中定义的$emit注册的事件,并传递子组件中的参数。例如,在子组件的方法中使用this.$emit("delete",this.index)可以触发父组件中定义的"delete"事件,并将this.index作为参数传递给父组件。 在另一个例子中,子组件中的sendData方法使用this.$emit("myevent", this.childData)触发父组件中定义的"myevent"事件,并将this.childData作为参数传递给父组件。 子组件通过this.$emit向父组件传递值的具体使用方法是在子组件中使用this.$emit("function", param),其中function是父组件中定义的函数,param是需要传递给父组件的参数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Vue入门:: this.$emit:Vue父子组件传值(子父之间的通信)和splice()方法的用法](https://blog.csdn.net/godot06/article/details/107960472)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [【Vue】学习笔记-组件传值](https://blog.csdn.net/weixin_49202767/article/details/123142041)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Vue子组件向父组件传值(this.$emit()方法)](https://blog.csdn.net/weixin_39390837/article/details/117471942)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值