论文阅读——MediaPipe Hands: On-device Real-time Hand Tracking

MediaPipe Hands: On-device Real-time Hand Tracking(From Google)

  

贡献点或者创新点
  1. 提出了实时运行在设备上的多手跟踪,并且只需要一个RGB摄像头就可以。
  2. 推理管道由两部分组成:手掌检测器和预测手关节坐标的模型,此模型可以预测手部2.5D的姿态
  3. 基于MediaPipe平台搭建的
  4. 提出的模型和推理管道在多种移动设备GPU上也能够取得比较好的实时预测效果

 

1 Introduction

  手势姿态估计已经发展了好多年,在AR/VR领域的应用也很广泛,但是许多之前的工作需要专门的硬件支持(例如深度传感器),或者是解决方案并不支持不够轻量,以至于没办法运行在移动实时设备上。本文提出的方法不需要借助其他的硬件设备,可以在实时在移动设备上进行手部跟踪。

 

2 Architecture

本文中手部姿态跟踪的解决方案由两个模型同时工作来实现:

  • 通过一个定向的手部包围边框,对整张输入图片来定位手掌的位置,这构成了一个手掌检测器
  • 对手掌检测器提供的裁剪的手边界框来检测手关键点坐标,并且返回高保真的2.5D手部地标,这构成一个手部地标定位模型

  加了手掌检测器之后,第二步中就大大减少了对图片的处理,并可以把更多的性能放在定位地标上。在实时进行手部姿态跟踪的时候,手掌检测器并不是每一帧都运行,视频帧图片中手的边界框由上一帧图片中手部的地标预测作为输入来获取,手掌检测器只在地标预测的时候发现手部丢失才会运行。

2.1 BlazePlam Detector

Figure
使用手掌检测而不用手检测有几个原因:

  • 手检测不像脸部检测,脸部检测有许多高对比的特征,手检测没有,直接检测起来会比较复杂。
  • 估算手掌和拳头等刚性物体的边界盒比有关节的手指检测手要简单得多。
  • 由于手掌是较小的对象,因此非最大抑制算法即使在双手自遮挡的情况下也能很好地工作,比如握手。
  • 手掌可以仅使用方形边界框进行建模,忽略其他纵横比,因此将锚的数量减少了3∼5倍.

本文中的手掌检测器使用类似于FPN[9]的编码器-解码器功能提取器来实现更大的场景上下文感知,即使对于小对象也是如此。

同时将训练过程中的焦点损失降至最低[10],以支持高尺度变化导致的大量锚定。
在这里插入图片描述

2.2 Hand Landmark Model

  手部地标模型通过回归对检测到的手部区域内的21个2.5D坐标进行精确地标定位。该模型学习一致的内部手姿势表示,甚至对部分可见的手和自我遮挡也具有鲁棒性。
该模型有三个输出

  1. 21个手部地标,(x,y)坐标还有相应的深度信息
  2. 表明手部是否存在的一个概率标志
  3. 二分类区分左右手

(x,y)2D坐标是从现实世界的图像和合成数据集中学习的,相应的深度信息只从合成数据集中学习。

输出手是否存在的概率标志是为了在实时手部跟踪的时候,如果标志的概率低于一定阈值,表示手预测丢失了,就可以立马启动手掌检测器来恢复跟踪。

**本文的设置目标是实时移动GPU推断,但也设计了更轻和更重的模型版本,以解决移动设备上的CPU推断问题,这些移动设备分别缺乏适当的GPU支持和更高的精度要求,无法在桌面上运行。 **

3 Dataset and Annotation

数据集中包含三个部分:

  1. In-the-wild dataset
  2. In-house collected gesture dataset
  3. Synthetic dataset

  对于手掌检测器,我们只在wild数据集中使用,这足以定位手部,并提供最高的外观多样性。然而,所有数据集都用于训练手部地标模型。我们用21个地标标注现实世界的图像,并使用投影的groundtruth 3D关节进行合成图像。对于手的存在,我们选择真实世界图像的子集作为正面示例,并在不包括注释的手区域的区域上采样作为负面示例。对于惯用手,我们用惯用手注释真实世界图像的子集,以提供此类数据

4 Results

不同尺寸的模型在不同设备上的性能体现:
在这里插入图片描述

这篇论文建议可以上b站看同济子豪兄的代码复现,论文也讲的很详细

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MediaPipe Hands是一种基于设备的实时手部追踪技术。它是由Google开发的计算机视觉库MediaPipe的一部分,旨在通过摄像头捕捉的视频流对手部进行准确的实时追踪。 Mediapipe Hands利用了深度学习模型和机器学习算法,能够识别视频中出现的双手,并对它们的位置和手势进行跟踪。这项技术可以应用在许多领域,包括虚拟现实、增强现实、手势识别和手势控制等。例如,在游戏中,可以使用Mediapipe Hands实时追踪玩家的手势,将其转化为虚拟角色在游戏中进行相应的动作。 Mediapipe Hands的一个显著特点是其在设备上的实时性能。相比于传统的手部追踪方法,Mediapipe Hands能够在保持高准确性的同时,实现实时的处理和反馈。这得益于其优化的模型架构和高效的计算算法。作为一种基于设备的解决方案,Mediapipe Hands无需依赖云端服务或高性能硬件,可以在较低功耗和资源受限的设备上运行。 此外,Mediapipe Hands还支持多个手势的识别和跟踪。它可以检测手的位置、边界框、手指的位置和手势类别,例如拇指的弯曲、手掌的张开和手势的连续跟踪。这种多样性使Mediapipe Hands成为一个强大而灵活的工具,适用于不同的视觉和交互应用。 总之,Mediapipe Hands是一种基于设备的实时手部追踪技术,具有高准确性、低延迟和多功能的特点。它为虚拟现实、增强现实、手势识别和控制等应用领域提供了一种简单而可靠的解决方案。 ### 回答2: MediaPipe Hands是一个由Google开发的机器学习技术,用于在设备上实现实时手部追踪。它基于深度学习模型,可以从设备的摄像头中识别和跟踪手部的动作和位置。 Mediapipe Hands使用的模型经过训练,可以识别手部的21个关键点,包括手指的关节和指尖。它可以在设备上实时分析摄像头捕捉到的图像,并进行准确的手部追踪。这种技术可以用于手势识别、手势控制和虚拟现实等应用领域。 相比于传统的基于云端的手部追踪技术,Mediapipe Hands的优势在于其实时性和隐私性。由于模型是在设备本地运行,不需要依赖于云端的计算资源,因此可以实现即时的反馈和交互。同时,所有的图像和手部数据都在设备上进行处理,保护了用户的隐私。 除了实时追踪手部的动作和位置外,Mediapipe Hands还可以提供手势识别的功能。通过识别手部的动作和位置,它可以判断用户是点击屏幕、捏取物体还是做出其他手势。这种手势识别能够为用户提供更自然、直观的交互体验,并且可以被广泛应用于手机、平板电脑、AR/VR设备等不同类型的设备上。 总之,Mediapipe Hands是一项强大的机器学习技术,能够在设备上实现实时的手部追踪和手势识别。它为用户提供了更直观、自然的交互体验,并且保护了用户的隐私。这项技术具有广泛的应用潜力,可以用于各种不同的设备和场景。 ### 回答3: Mediapipe Hands是一项在设备上实时手部追踪技术,由谷歌开发。它利用神经网络模型和计算机视觉技术,能够精确地检测和跟踪人手的动作和姿势。 这项技术主要适用于在移动设备和嵌入式系统上进行手部追踪。相比于传统的云端追踪方案,Mediapipe Hands使用了高效的计算机视觉算法,能够在设备本地实时进行处理,无需依赖云端网络服务,有效提高了实时性和隐私性。 利用Mediapipe Hands技术,用户可以通过摄像头捕捉手部的位置和动作,实现手势识别、手势控制等功能。这项技术可以广泛应用于移动游戏、虚拟现实、增强现实、手势交互和人机界面等领域。 Mediapipe Hands的优势在于其快速准确的手部追踪能力。它能够将手部的关键点(如手指、掌心等)精确地识别和跟踪,实现高精度的手部姿势估计。而且,由于是在设备上进行实时处理,其响应速度非常快,可以满足实时交互的需求。 总体而言,Mediapipe Hands是一项在设备上实时追踪手部动作和姿势的技术。它的应用范围广泛,可以用于移动设备和嵌入式系统,提供高精度的手部追踪功能,为用户带来更加现实、交互友好的体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值