HOI(人物交互 & Contact)相关工作——Dataset 篇

HAKE: A Knowledge Engine Foundation for Human Activity Understanding

知识驱动的行为理解,构建了一个人类活动理解的数据集
用于「人-物交互检测」的可迁移交互知识|数据集|迁移|检测|物体|数学|模型|-健康界

  • Motivation
    类似对象识别的解决方案通常尝试将像素直接映射到语义,但活动模式与对象模式有很大不同,从而阻碍了另一次成功。本文提出了一种新颖的范例,分两个阶段重新表述此任务:首先将像素映射到由原子活动原语跨越的中间空间,然后使用可解释的逻辑规则对检测到的原语进行编程以推断语义。为了提供具有代表性的原始空间,本文构建了一个知识库,其中包括 26+ M 个原始标签和来自人类先验或自动发现的逻辑规则。
  • 方法介绍
    为了定义和发现基元,本文进行了预先的用户研究:给定活动图像/视频,参与者应该从初始基元字典中给出活动的决定性基元,包括 200 个人体部位状态 (PaSta)、80 个常见对象,和 400 个场景。
    每个基元都被描述为一个短语标记,例如“hand-touch-sth”、“chair”、“classroom”。该字典随着注释的进展而增长,参与者可以补充原语以更好地解释他们的决定。
    在对涵盖 156 个活动的 122 K+ 图像和 234 K+ 视频帧进行注释后,我们发现:1)大多数参与者认为身体部位是最重要的活动语义载体。 2)PaSta中的类别是有限的。在详尽检查 26.2 M+ 手动标记的 PaSta 后,只有大约 100 个类别是突出的。 3) 对象有时会产生微小的差异,例如,在检查某物、触摸某物时。 4)很少有参与者相信场景总是重要的,例如,我们可以在客厅踢足球。
  • 数据集详情
    HAKE总共包含357 K+ 图像/帧、673 K+ 人物、220 K+ 对象基元和 2640 万+ PaSta 基元。

HOT(CVPR2023) :Detecting Human-Object Contact in Images

创建了一个图像中人与物体接触标记的新数据集

  • Motivation
    现在的研究中缺少鲁棒性的方法用于检测图像中人的身体和场景之间的接触部分,并且不存在用于学习这样的Detector的数据集,因此,本文用 HOT数据集来填补这一空白。
  • 主要创新点
    实现了一个通用的contact detector并且构建了HOT数据集
  • 方法介绍
    使用了两种互补的数据集作为可选择的数据来源,首先是PROX数据集,该数据集具有伪ground-truth的3D人体网格,用于扫描3D场景中移动的真人,并通过计算 3D 网格之间的接近度来自动注释接触区域。同时使用V-COCO 、HAKE 和 Watch-n-Patch 数据集,聘请专业注释者,并训练他们将接触区域注释为图像中的 2D 多边形。
    根据不同的注释方法:手动和自动,产生了 HOT-Generated 和 HOT-Annotated
    • HOT-Generated:首先,本文从 PROX 数据集收集数据,其中包含重建为 3D SMPL-X 网格的人物与静态 3D 场景交互;这涉及坐、走、躺等动作,并且通过简单地使用 3D 人体网格和物体之间的 3D 邻近度度量来促进自动生成接触热图和静态 3D 场景网格。本文从 PROX 的“qualitative set”中对帧进行子采样,并形成 HOT 的“HOT Generated”部分。
    • HOT-Annotated:现有的 HOI 数据集包含人类和物体的活动标签和边界框,但边界框对于理解接触来说太粗糙。因此,本文从 V-COCO和 HAKE数据集中选择一个子集,并使用它们来收集新的contact注释。为了使任务易于处理,首先删除具有间接人类对象交互、严重裁剪的人物、运动模糊、扭曲或极端照明条件的图像。其他有趣的数据集是室内动作识别数据集,如 Watch-n-Patch ,其中包含一些日常活动,如“从冰箱取东西”、“把书放回去”等。从视频剪辑中采样图像帧,其中人类受试者和物体清晰可见。然后,组合从 V-COCO、HAKE 和 Watch-n-Patch中选择的图像,并形成 HOT 的“HOT-A​​nnotated”部分。
  • 数据集详情
    HOT 数据集共有 35287 张图像和 162267 个接触区域注释,以及每个区域的身体部位标签。具体来说,对于“HOT-A​​nnotated”,本文收集了 V-COCO的 5235 个图像和 20273 个接触区域,HAKE收集了 9522 个图像和 45645 个接触区域,Watch-n-Patch手机了 325 个图像和 1, 170 个接触区域。对于“HOT-Generate”,本文使用 PROX 数据集在 20205 个图像中自动生成 95179 个接触区域。
    在这里插入图片描述
  • 数据集示例
    在这里插入图片描述

ARCTIC(CVPR2023): A Dataset for Dexterous Bimanual Hand-Object Manipulation

  • Motivation
    到目前为止,在手部姿态估计文献中,对手部和物体在操作过程中的物理一致性动力学的研究还很少。这在一定程度上是因为现有的手-物体数据集大多局限于对刚性物体的抓取,很少包含对铰接物体进行丰富和灵巧操作的例子。为了使研究灵巧的关节式手-物操作成为可能,本文构建了一个名为ARCTIC的新数据集。
  • 主要创新点
    • 提出了 ARCTIC,这是第一个能够灵巧地操纵铰接物体的两只手的大规模数据集,其中多视图 RGB 图像与精确的 3D 网格配对
    • 引入了 一致运动重建 和 交互场估计 这两个新任务来研究手和铰接物体的物理一致运动
      一致运动重建:任务是重建两只手和一个铰接物体的 3D 运动。特别地,要求重建的手部物体网格在物体铰接和操作期间处于时间一致的手部物体接触和运动。
      交互场估计:给定视频,估计每个手的顶点到物体的最近距离,最后以热图形式呈现
  • 方法介绍
    • 本文的目标是从视频中重建灵巧操作时手和关节物体的3D运动。重要的是,本文的关注点扩展到手-物体姿态之外,本文要求重建的网格具有精确的手-物体接触( CDev )和平滑的运动( ACC )
    • 本文将 MoCap 系统与多视图 RGB 系统同步。对于后者,以 30 FPS 的速度从 8 个静态非中心视图和 1 个移动第一人称视角捕获 RGB 视频。
    • 捕捉一共有五个步骤:(1) 获取主体和物体的 3D 模板几何形状,(2) 估计铰接物体的旋转轴。(3) )使用基于标记的Mo Cap结合校准和同步的视频捕获交互作用,(4) 根据 相关文献的 MoCap 标记中求解身体、手和物体的姿势, (5) 基于接近度计算手与物体的接触
  • 数据集详情
    ARCTIC是一个双手灵巧操纵铰接物体的视频数据集,ARCTIC 包含 10 名受试者(5 名女性/男性)对 11 个铰接物体进行灵巧操作的 339 个序列。该数据集由来自 8 个静态视图和 1 个第一人称视角的 210 万张 RGB 图像组成,并配有 3D 手和对象网格。为了捕捉不同的交互模式,本文要求受试者“使用”(170 万张图像)或“抓住”(45.7万张图像)物体。
  • 数据集示例
    在这里插入图片描述

EgoHOS(ECCV2022):Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and Applications

  • Motivation
    第一人称视角的视频为人类行为的高保真建模提供了细粒度的信息。手和交互的物体是理解观看者的行为和意图的重要方面之一。本文提供了一个带标签的数据集,其中包含 11,243 个第一人称视角的图像,以及在各种日常活动中与之交互的手和物体的每像素分割标签。
    作者引入了一种上下文感知的组合数据增强技术,以适应分发外的 YouTube 第一人称视角的视频。展示其手部对象分割模型和数据集可以作为基础工具来增强或启用多种下游视觉应用,包括手部状态分类、视频活动识别、手对象交互的 3D 网格重建,以及第一人称视角的视频中手对象前景的视频修复。
  • 主要创新点
    • 提出了一个包含 11,243 张图像的数据集,数据集包含手部和交互对象的细粒度像素标签,包括交互对象mask,使得手部分割模型能够比以前的数据集泛化能力更强。
    • 引入了密集接触边界的概念来显式地建模手和交互对象之间的关系,本文表明这有助于提高分割性能。
    • 提出了一种上下文感知的组合数据增强技术,可以有效地提高对象分割。
  • 方法介绍
    从多个来源收集数据,包括来自 Ego4d的 7,458 帧、来自 EPIC-KITCHENS的 2,121 帧、来自 THU-READ的 806 帧,以及本文自己收集的室内egocentric视频的 350 帧。一共从近 1,000 个视频中稀疏采样总共 11,243 个帧,涵盖不同场景中的各种日常活动。本文从采样集中手动选择多样化且非重复的视频帧,其中包含有趣的手部对象交互,以用每像素片段进行标记,
  • 数据集详情
    本文的数据集包含非常多样化的手部物体交互活动和场景,其中帧是从 Ego4D 、EPIC-KITCHEN 、THU-READ 中的近 1,000 个视频以及本文的自己收集的 GoPro 视频中抽取的。对于数据集中的每个图像,获得了以下每像素掩模注释:(a)左手; (b) 右手; © 右手物体; (d) 右手物体; (e) 双手物体。对于每种类型的交互对象,还提供两个级别的交互:直接交互和间接交互。如果手触摸物体,定义手和物体之间的直接交互,否则,将该对象标记为用手间接交互。在这项工作中,本文只研究直接交互的对象,但本文将发布数据以支持未来对间接交互对象分割的研究。请注意,以前的工作将手部掩模定义为两种类型:仅手部和带手臂的手部。本文认为这两种类型的标签都很有用,因此本文为数据集中的所有图像提供两种类型的手部掩模标签,其中一种用于手,另一种用于手臂的其余部分。
    手部对象分割的一个关键挑战是对手部和交互对象之间关系的明确理解和建模。像传统的分割任务一样,纯粹根据外观来分割对象并不能正确解决本文的问题。原因是同一对象在某些帧中需要分割,而在其他帧中则不需要,具体取决于手是否与对象接触。为此,本文建议通过引入密集接触边界的概念来显式地建模手与物体之间的交互关系。
  • 数据集示例
    在这里插入图片描述

SCR(CVPR2022) :Stability-Driven Contact Reconstruction From Monocular Color Images

  • Motivation
    现有的室内数据集涉及的主题和对象的数量有限,学习到的接触模式不能轻易推广。本文的核心思想是直接从单眼图像中重建接触模式,然后利用仿真中的物理稳定性准则对其进行优化。该标准由物理引擎计算的合力和接触分布定义。与现有的解决方案相比,本文的框架可以适应更个性化的手和多样化的物体形状。此外,创建具有额外物理属性的交互数据集来验证本文方法的模拟与真实的一致性。
  • 主要创新点
    • 回归优化框架,用于从稳定性引导的单目图像重建手部物体接触和物理相关性;
    • 基于椭球基元的手部物体表示和学习策略,为深度学习推理和物理模拟过程带来便利;
    • 包含物理属性和稳定性指标的手部物体交互数据集,可验证相关方法的模拟与真实的一致性。
  • 方法介绍
    主要是模拟重建的框架与方法,数据集相关内容较少
  • 数据集详情
    CBF数据集包含25个视图,其中有20个对象在5个姿势下与10个物体交互,并提供了手和物体的网格以及mask的ground-truth注释。

RICH(CVPR2022) Body-Scene contact TRansfOrmer:Capturing and Inferring Dense Full-Body Human-Scene Contact

  • Motivation
    从单个图像推理 3D 人景接触依然具有挑战性,而现有的 HSC(human-scene contact) 检测方法仅考虑几种类型的预定义接触,通常将身体和场景简化为少量基元,甚至忽略图像证据。许多方法确实从图像中估计人类对象交互(HOI),但将推理限制在 2D 图像区域 。也就是说,它们估计图像中与接触相对应的边界框或热图,但不将它们与 3D 身体相关联。为了从单个图像预测人类场景接触,本文构建了一个名为 RICH 的新数据集,用于“Real scenes, Interaction, Contact and Humans”。
  • 主要创新点
    • 本文构建了了 RICH,这是一个新颖的数据集,可以捕获人与复杂场景的交互。它是第一个提供室外场景扫描和用于单目 HSC 估计的图像数据集
    • 本文提出了 BSTRO,一种单目 HSC detector。它以身体为中心,因此不需要 3D 场景重建来推断contact。与同样以身体为中心的 POSA 不同,BSTRO 直接从输入图像估计密集场景contact,而无需重建身体。
  • 方法介绍
    • 给定同步摄像机捕获的视频,首先识别每个视频的subject。
    • 对于每个subject,本文通过多视图拟合的方法重建SMPL-X 身体,并将其放置在预扫描场景中以计算身体场景contact
  • 数据集详情
    RICH(Real scenes, Interaction, Contact and Humans)是一个单目身体场景交互数据集 (RICH),其中包含 577K 幅图像以及 SMPL-X 参数和场景接触标签,具体地,包括:(1) 单个或多个对象与扫描 3D 场景交互的高分辨率多视图图像,(2) 密集的全身场景contact标签,(3) 高质量室外/室内场景扫描,(4) 高质量 3D 人体形状和姿势, (5) 动态背景和移动摄像机。
  • 数据集示例
    在这里插入图片描述

HandLer(CVPR2022) Forward Propagation, Backward Regression, and Pose Association for Hand Tracking in the Wild

  • Motivation
    提出了HandLer,同时为了训练和评估 HandLer,本文还构建了 YouTube-Hand,这是第一个具有挑战性的大规模无约束视频数据集,带有手部位置及其轨迹注释。

  • 主要创新点

    • 开发了一种新颖的卷积架构,可以检测和跟踪无约束视频中的手部。
    • 构建了第一个大规模无约束带有手部位置及其轨迹注释的视频数据集
  • 数据集详情
    YouTube-Hand 包含来自不同场景类别的 240 个视频序列,包括厨房、机械车间和健身房。该数据集有 19,728 个带注释的帧和 864 个独特的手部实例。据本文所知,这是第一个大规模手部跟踪数据集,其中包含无约束环境的视频,每个视频都有多个带注释的手部轨迹。

  • 数据集示例
    在这里插入图片描述

VISOR(NIPS2022):EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations

  • Motivation
    考虑一段视频,记录了准备面包的繁琐过程,从获取、测量和混合原料到揉捏和塑造面团。尽管这是一项例行任务,但计算机视觉模型的离散性质(主要通过图像进行训练)期望将物体识别为面粉或面团。迄今为止尚未尝试通过像素级注释捕获转换。 VISOR 建立在 EPIC-KITCHENS 第一人称视角的视频 [12] 之上,利用动作标签并提供手和活动对象的稀疏分割,并具有注释率,以便表示短(例如“加盐”)和长(“揉面团”)时间动作。
  • 方法介绍
    • 本文的注释由多个阶段组成。在第一阶段,本文识别要注释的框架和活动实体。确定了应该分割的内容后,本文获得了像素级注释。为了实现一致性,本文对注释者进行广泛的培训,并采用手动验证)。最后,本文收集本文的挑战所需的附加注释。接下来本文详细描述本文的管道。
    • 本文建立在大规模egocentric的 EPIC-KITCHENS-100 数据集的基础上,该数据集经过布里斯托大学教师道德批准并签署了参与者同意书(匿名)。参与者佩戴头戴式摄像头,在进入厨房之前开始录制,只有在离开房间时才停止录制。这些视频具有细粒度的动作标签,包括:(i)视频文件(例如,P06_108); (ii) 动作的开始和结束时间(例如,从 03:52.6 到 03:58.4); (iii) 描述动作的简短开放词汇叙述(例如,“从包装中取出马苏里拉奶酪”); (iv) 动词和名词类的封闭词汇(例如,将“马苏里拉”映射到“奶酪”类)。 [11] 的表 2 将 EPIC-KITCHENS 与公开可用的动作识别数据集在大小、注释和类别(例如,[7,16,37])方面进行了比较。
  • 数据集详情
    一共有36个小时的50.7K张图像,并有 271.6K 个mask的注释,通过插值生成了990万个dense mask
  • 数据集示例
    在这里插入图片描述

TUCH(CVPR2021)Towards Understanding Contact in Humans: On Self-Contact and Human Pose

  • Motivation
    虽然许多人的图像包含某种形式的自我接触,但当前的 3D 人体姿势和形状 (HPS) 回归方法通常无法估计这个接触。为了解决这个问题,本文开发了新的数据集和方法,可以显著改善自接触的人体姿势估计。
  • 主要创新点
    • 本文引入了 TUCH,第一个用于自接触姿势的端到端的HPS 回归器
    • 本文创建了一个新颖的具有真实接触的 3D 人体网格数据集 (3DCP)。
    • 本文定义了“模仿姿势”MTP 任务和一种新的优化方法,以创建具有准确 3D 参考数据的野外图像的新颖数据集。
    • 本文创建了一个大型图像数据集,其中包含使用离散接触标签的参考姿势。
  • 方法介绍
    这篇文章主要关注肢体接触下的人体网格估计,作者使用 SMPL-X 人体模型拟合3D扫描数据和AMASS数据集,构建了一个含有合理肢体接触 (无穿模、无自交) 的人体数据集 3D Contact Poses (3DCP)、一个包含 SMPL-X 参数的图片数据集 Mimic-The-Pose (MTP),作者使用新数据集训练了 SPIN 网络,得到新的人体姿态回归器 TUCH (Towards Understanding Contact in Humans),不仅能够对肢体接触的图片预测结果有很大的改进,对于无肢体接触的情况也能得到更好的结果。
    • 首先构建身体部位接触的 3D 网格的 3D 接触姿势 (3DCP) 数据集。首先,让受试者摆出自接触姿势,并进行高质量 3D 扫描。本文扩展了以前的网格配准方法来应对自接触并将 SMPL-X 网格配准到扫描。为了获得更多种类的姿势,本文在 AMASS 数据集中搜索具有自接触或“接近”自接触的姿势。然后,本文优化这些姿势,使接触部分附近的部件完全接触,同时解决相互渗透的问题。这实现了了有效且真实的SMPL-X 格式的自接触姿势数据集。
    • 其次,将这些姿势用于构建具有接近真实 3D 姿势的新颖图像数据集。本文向 Amazon Mechanical Turk上的工作人员展示渲染的 3DCP 网格。他们的任务是尽可能准确地模仿姿势(MTP),包括接触部分,并提交照片。然后,本文使用“真实”姿势作为强先验,并通过扩展 SMPLifyX 来强制接触来优化图像中的姿势。一个关键的观察是,如果本文了解自接触(即使是大约),就会通过消除自由度来大大减少姿势模糊性。因此,了解接触可以使根据 2D 图像估计 3D 人体姿势更加准确。由此产生的方法 SMPLify-XMC(适用于具有模仿接触的 SMPLify-X)可生成与图像相对应的高质量 3D 参考姿势和身体形状。
    • 第三,为了获得更多的图像多样性,本文从三个公共数据集获取图像,并用离散的身体部位接触标记它们。这会产生离散自接触 (DSC) 数据集。为了实现这一点,本文将身体划分为可以接触的区域。给定标记的离散接触,本文扩展 SMPLify 以使用图像特征和离散接触标签来优化身体形状。本文将此方法称为 SMPLify-DC,即具有离散自接触功能的 SMPLify。
  • 数据集详情
    3DCP 人体网格数据集由 190 个网格组成,其中包含来自 6 个受试者的自接触、159 个适合 AGORA [33] 商业扫描的 SMPL-X 主体以及来自动捕数据的 1304 个自接触优化网格。从这 1653 个姿势中,本文从 148 个独特的受试者(52 名女性;96 名男性)收集了 3731 个模仿姿势图像,用于 MTP 并拟合伪ground-truth SMPL-X 参数。 DSC 数据集提供 30K 图像的注释。
    模仿姿势(MTP)数据集。MTP 是通过以下方式构建的:(1) 收集许多表现出自接触的 3D 网格。灰色的是自接触姿势的新 3D 扫描,棕色的是根据 AMASS 动作捕捉数据优化的自接触姿势。 (2) 通过要求 AMT 工作人员模仿姿势和接触来收集野外图像。 (3) 通过 SMPLify-XMC 细化所呈现的网格以匹配图像特征。
  • 数据集示例
    在这里插入图片描述

PaStaNet(CVPR2020): Toward Human Activity Knowledge Engine

  • Motivation
    现有的基于图像的活动理解方法主要采用直接映射,即从图像到活动概念,由于差距巨大,可能会遇到性能瓶颈。因此,本文提出一种新的思路:首先识别人的不同bodypart的状态,然后基于bodypart的语义信息推理出动作。举个例子,PaSta的定义如图中骑车的人,他的每个身体部位都在执行不同的子行为,通过整体的配合,得到整体的行为,比如双手握住把手,双脚踏在脚蹬上等等。通过这种分解,本文可以视PaSta为行为的原语(primitive),是行为的基本组成元素,类似字母与单词,氨基酸和蛋白质的关系。
  • 方法介绍
    • PaSta Definition:将人体分成10个bodyparts,而后根据每个不同的bodypart定义一些状态,比如手可以push something或者hold something。
    • Activity Labeling:作者从118k张图片中定义出156个activities。
    • Body Part Box:通过姿态检测算法检测出10个人体关键点,每个关键点的bbox大小通过计算脖子和骨盆的距离进行一定程度的缩放。
    • PaSta Annotation:基于上述定义的156个activities,从WordNet中挑选200个动词作为bodypart的动作,那么ride bicycle就可以表示成<hip,sit on,something>,<hand,hold,something>,<foot,setp on,something>,后通过Normalized Point-wise Mutual Information (NPMI) 选定76种最高NPMI得分的PaSta(上述的三元组)。最后需要注意的一点就是一个part有可能有多种状态,如eat while talking,其head就有两种状态,如<head,eat,something>,<head,talk_to,something>,所以其实是一个multi-label预测的问题
  • 数据集详情
    本文通过众包收集以人为中心的活动图像(30K 图像与粗略活动标签配对)以及现有的精心设计的数据集中的185K 图像),他们所有带注释的人和物体都被提取出来供本文构建PaSta。最后,本文收集了超过 20 万张不同活动类别的图像。
    在这里插入图片描述

100DOH(CVPR2020) :Understanding Human Hands in Contact at Internet Scale

  • Motivation
    The goal of this paper is to infer a rich representation for helping understand hands engaged in contact with the world at Internet scale.
  • 方法介绍
    论文的实验部分做了以下任务的实验:(1)手部定位(输出手的bounding box)(2)手部状态识别(3)手部姿态重建
  • 数据集详情
    数据集一共包含 11 个类别的 27,300 个视频,以及 131 天的日常互动镜头。数据集的总帧数在100k,数据集中包含了以下的注释:(1)手的边界框(2)手是左手还是右手的标注(3)手的接触状态(无接触、与其他人接触、与便携式物体接触、与非便携式物体接触)(4)人正在接触的对象的边界框。
    在这里插入图片描述

ContactHands(NIPS2020) Detecting Hands and Recognizing Physical Contact in the Wild

  • Motivation
    提出了一个新问题:在不受约束的条件下检测手并识别其物理接触状态。
  • 方法介绍
    • 本文收集两种类型的数据:静态照片和视频帧。对于静态图像,本文从多个来源收集图像。首先,本文从流行的数据集中选择包含人物的图像,例如 MS COCO 和 PASCAL VOC 数据集。作为静态照片的第二个来源,本文使用可能返回包含人物的图片的关键字从 Flickr 中抓取一些照片。
    • 本文使用多个注释器来注释数据并随后验证它们。本文要求注释者通过绘制包含尽可能多的手部像素的紧密四边形边界框来定位手部实例。本文指示他们定位所有手,其结果轴平行框的最小边的长度大于 min(H, W )/30,其中 H 和 W 是图像的高度和宽度。只要可见手部区域的大小大于前面提到的阈值,本文就要求注释者定位截断和遮挡的手。本文选择四边形框而不是与轴平行的边界框,因为手的关节非常清晰,而与轴平行的边界框为手提供了较差的定位。除了定位手之外,本文还要求注释者识别每个手实例的物理接触状态。由于手可以处于多种接触状态,因此本文指示注释者独立考虑四种可能的接触状态;本文要求他们分别对四种可能的联系状态回答“是”、“否”和“不确定”。本文批量收集注释。本文要求额外的注释器来验证四边形框的注释和每批的接触状态。本文通过随机采样一小部分图像并独立注释每个手实例的接触状态来进一步验证每批物理接触状态的注释。然后,本文定量测量注释中的误差,以验证所有注释批次的误差在 2% 以内。
  • 数据集详情
    本文的数据集由大约 21K 图像组成,包含 58K 只手的边界框注释及其物理接触状态。
    本文以绿色显示边界框注释。为了避免混乱,本文在每个图像中仅显示两个手实例的接触状态。符号 NC、SC、PC 和 OC 表示无接触、自接触、他人接触和物体接触。本文用红色突出显示手的接触状态。如果联系状态不确定,本文会将其突出显示为蓝色。

ContactPose(ECCV2020) ContactPose: A Dataset of Grasps with Object Contact and Hand Pose

  • Motivation
    抓握对于人类来说是很自然的事情。然而,它涉及复杂的手部构造和软组织变形,可能导致手部和物体之间的接触区域变得复杂。理解和建模这种接触可以潜在地改善手部模型、AR/VR 体验和机器人抓取。然而,本文目前缺乏与其他数据模式配对的手部物体接触数据集,这对于开发和评估接触建模技术至关重要。
  • 数据集详情
    本文介构建了 ContactPose,这是第一个与手部姿势、物体姿势和 RGB-D 图像配对的手部物体接触数据集。 ContactPose 拥有 50 名参与者以 2 种功能意图抓取的 25 个家居物品的 2306 次独特抓取,以及超过 290 万张 RGB-D 抓取图像。
    在这里插入图片描述

InterHand2.6M(ECCV2020): A Dataset and Baseline for 3D Interacting Hand Pose Estimation from a Single RGB Image

  • Motivation
    现在已有的方法大都是基于单只手掌的预测,但人类的手势行为存在大量的双手交互动作
  • 主要创新点
    • 本文提出了一个包含2.6M带3D keypoint 标注的single and interacting hand frames 的数据集,即有的图里只有一只手,有的图里有两只手在做交互的动作;
    • 同时提出了一个baseline网络 InterNet 方法,用single RGB image来做3D interacting hand pose estimation。
  • 方法介绍
    • 每只手都有21个坐标标记。
    • 多视觉获取,同一时刻获取6个不同视角的图像,并使用traingulation将2D坐标变成3D坐标。
    • 两阶段标记。第一阶段依赖人工标记,标记者手动标记94914张2D图像。将这些2D标记使用traingulation转换成9036个3D坐标,之后在把3D坐标投影到大约80个视图中,得到698922张图像的2D坐标。第二阶段基于第一阶段标记的2D图像训练SOTA二维关键点检测器。使用该检测器检测未标注的图像,使用RANSAC将2D转3D。
  • 数据集详情
    InterHand2.6M 是一个基于单幅RGB图像的三维交互式手部姿态估计数据集。该数据集包含准确的 GT 3D 手部交互姿势,用于三维手部姿态估计。数据集包含 2.6M 已标注的单个和交互的手部姿态框架。
    在这里插入图片描述
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值