
mediapipe对象检测算法
文章平均质量分 85
mediapipe主要应用在计算机视觉领域,目前主要
1、人脸检测与识别
2、手势识别
3、虹膜检测
4、人体姿态检测
5、头发检测与分割
6、对象检测
7、box 追踪
8、3D对象检测
人工智能研究所
头条 人工智能研究所 ,计算机视觉,NLP
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于mediapipe的人体姿态估计模型——没有GPU依然速度飞起
基于mediapipe的人体姿态检测模型,可以检测图片或者视频流中的人体姿态检测,最重要的是可以在CPU上面快速运行,且可以运行在移动终端设备上,大大提高了模型的使用。原创 2024-01-02 18:54:47 · 623 阅读 · 0 评论 -
基于mediapipe的人手21点姿态检测模型—CPU上检测速度惊人
仅当手部检测模型不再识别手的存在或无法跟踪帧内的手时,手部关键点检测模型才会重新触发手掌检测模型。在进行人手手势识别前,MediaPipe首先需要进行人手的检测与人手坐标点的检测,经过以上的检测后,才能把人手的坐标点与手势结合起来,进行相关的手势识别。检测到人手后,就可以进行人手坐标的检测,当模型运行完人手坐标点检测后,输出相关的坐标点与惯用手标识。MediaPipe人手坐标点检测模型可以根据用户输入的图片或者视频,进行人手21个关键点的检测,并输出相关的关键点的坐标。代码实现人手21个关键点检测。原创 2023-11-25 11:43:57 · 239 阅读 · 0 评论 -
YOLO对象检测算法也这么卷了吗——基于YOLOv8的人体姿态检测
YOLOv8开源了5个尺寸大小的人体姿态检测模型,YOLOv8n-pose是尺寸最小的模型,但是其速度也是最快的模型,但也是牺牲了精确度。然后我们导入YOLO库,并加载yolov8n-pose模型,这里直接选择需要的模型即可,代码运行时会自动下载相关的模型,无需其他额外的操作。其中包括新的骨干网络,新的无锚网络检测头和新的损失函数功能。前期的文章我们介绍了很多关于YOLO系列的对象检测算法,虽然YOLO系列是应用在目标检测算法上,但是最近更新的YOLO系列算法都加入了对象分割,人体姿态检测等模型。原创 2023-11-18 10:59:36 · 284 阅读 · 0 评论 -
Google发布移动终端对象检测模型——mediapipe,无GPU依然飞快
当然从对象检测的类别与对象检测的精度来讲,其mediapipe与其他基于GPU系列的对象检测模型还有些差距,但是mediapipe并没有使用GPU进行加速,若其他对象检测模型使用在移动终端上,也并没有mediapipe效果好,其对象检测的模型也相关巨大。无论是输入图片,或者视频,其模型最终都会转换到图片进行对象检测,针对视频来讲,使用图片进行对象检测完成后,再把每帧的图片连接一起,再次转换成视频,最终实现视频或者视频流的对象检测。现在我们就可以加载一张需要对象检测的图片,进行对象检测任务了。原创 2023-11-06 09:10:42 · 283 阅读 · 0 评论 -
基于Mediapipe的对象分类任务,CPU平台毫秒级别延迟
设置完成后,就可以根据自己的图片来进行图片分类了,这里建立一个IMAGE_FILENAMES列表,可以把图片的绝对位置都放在此列表中,一起进行检测分类,或者也可以打开摄像头进行实时视频的对象分类任务。在移动终端设备上面,其EfficientNet-Lite0模型最快才只有10ms的延时,这对一个计算机视觉任务来说已经是很快的结果,这么低的延时,完全可以直接使用在实时视频与直播任务上。当安装完成Mediapipe库与预训练模型后,就可以进行图片的分类任务了,当然这里你可以下载不同的预训练模型。原创 2023-10-17 18:24:30 · 236 阅读 · 0 评论 -
运行在移动设备上的ML机器学习任务——基于MediaPipe的手势识别
手势模型类似模型的embedding,把图片数据embedding作为特征向量,而手势分类模型类似一个MLP分类任务,当然这里是多类别分类任务。当然此模型是一个可以被训练的模型,我们可以根据自己的需求来训练自己的模型,比如一些手语识别任务等,这里最主要的便是数据的整理工作了。得到检测的结果后,我们就可以把检测结果可视化到原始图片上,当然若把此任务作为一个移动应用的功能,我们可以把可视化的部分省略掉,直接利用top_gesture的结果来作为应用的输入,进而执行相关的代码操作。其模型支持如下几个识别手势。原创 2023-10-08 18:48:16 · 218 阅读 · 0 评论 -
Google出品Mediapipe人像分割,可任意更换图片与视频背景
在一些视频聊天软件中,我们可以看到很多人的背景特别的漂亮,甚至我们都怀疑是不是真实地来到了某个地方,本期介绍一下Mediapipe人像分割(RVM人像分割)MediaPipe Selfie Segmentation 对场景中的突出人物进行分割。它可以在智能手机和笔记本电脑上实时运行。原创 2023-07-09 11:56:27 · 1250 阅读 · 0 评论 -
颠覆2D对象检测模型,MediaPipe 3D对象检测还原真实的对象特征
关于对象检测,我们以前分享的文章都是介绍的2D的对象检测,但是我们很多使用场景下,希望检测到的对象能够以3D的影像呈现出来,本期介绍的MediaPipe Objectron便是是用于日常对象的移动实时3D对象检测解决方案。它检测2D图像中的对象,并通过在Objectron数据集上训练的机器学习(ML)模型估计其3D姿势。3D对象检测对象检测是一个广泛研究的计算机视觉问题,但是大多数研究都集中在2D对象预测上。原创 2023-06-17 14:15:00 · 496 阅读 · 0 评论 -
MediaPipe Face Detection可运行在移动设备上的亚毫秒级人脸检测
MediaPipe人脸检测MediaPipe人脸检测是一种超快速的人脸检测解决方案,具有6个界标和多人脸支持。它基于BlazeFace,BlazeFace是为移动GPU推理量身定制的轻巧且性能良好的面部检测器。原创 2023-05-20 15:12:31 · 760 阅读 · 0 评论 -
MediaPipe虹膜检测:实时虹膜跟踪和深度估计
包括计算摄影(例如,人像模式和闪光反射)和增强现实效果(例如,虚拟化身)在内的大量实际应用都依赖于通过跟踪虹膜来估计眼睛位置。一旦获得了准确的光圈跟踪,我们就可以确定从相机到用户的公制距离,而无需使用专用的深度传感器。反过来,这可以改善各种用例,从计算摄影到适当大小的眼镜和帽子的虚拟试戴,到根据视听者的距离采用字体大小的可用性增强。由于有限的计算资源,可变的光照条件以及遮挡物(例如头发或人斜视)的存在,虹膜跟踪是在移动设备上解决的一项艰巨任务。原创 2023-05-20 15:05:59 · 1318 阅读 · 0 评论 -
利用机器学习,进行人体33个2D姿态检测与评估(实时视频检测)
我们打开系统的默认摄像头,待摄像头打开后,我们使用一个死循环进行视频帧图片的截取,当截取到视频帧中的图片后,我们利用图片检测的方法进行检测,只是这里我们转换图片到RGB颜色空间后,我们使用cv.flip函数来进行图片的翻转操作,以便增强图片数据,然后使用 image.flags.writeable = False。当然是用姿态评估,我们可以开发属于自己的应用,比如电视上添加摄像头,实时检测看电视人的姿态,评估是否姿态健康,以及学生上课的姿态,写字姿态等,还可以利用姿态评估对全身运动类的体育进行判断等等。原创 2023-04-29 17:20:57 · 412 阅读 · 0 评论 -
利用机器学习,进行人体33个2D姿态检测与评估
前几期的文章,我们分享了人脸468点检测与人手21点的代码实现过程,本期我们进行人体姿态的检测与评估通过视频进行人体姿势估计在各种应用中起着至关重要的作用,例如量化体育锻炼,手语识别和全身手势控制,还可以在增强现实中将数字内容和信息覆盖在物理世界之上。MediaPipe Pose是用于高保真人体姿势跟踪的ML解决方案,利用BlazePose研究成果,还从ML Kit Pose Detection API中获得了RGB视频帧的整个33个2D标志(或25个上身标志)。原创 2023-04-02 08:36:55 · 577 阅读 · 0 评论 -
使用mediapipe检测实时视频中的人手21点坐标
在随后的图像中,一旦检测到所有手并且定位了相应的手地标,它便会简单地跟踪这些地标,而无需调用另一次检测,直到失去对任何手的跟踪为止。这减少了等待时间,是处理视频帧的理想选择。当打开摄像头后,我们从视频帧中提取实时的图片,并转换图片到RGB颜色空间,然后进行图片的的人手检测,检测完成后,我们再转换图片到BGR空间,以方便我们的图片保持一致,检测完成后,我们便可以遍历检测到的人手数据,进行实时的图片的标注。检测完成后,我们遍历检测结果,并标注到原始的图片上,最后使用imshow函数,实时显示我们检测到的结果。原创 2023-03-20 06:30:00 · 1060 阅读 · 0 评论 -
利用机器学习(mediapipe),进行人手的21个3D手关节坐标检测
感知手的形状和动作的能力可能是在各种技术领域和平台上改善用户体验的重要组成部分。例如,它可以构成手语理解和手势控制的基础,并且还可以在增强现实中将数字内容和信息覆盖在物理世界之上。虽然自然而然地出现在人们手中,但是强大的实时手感知力无疑是一项具有挑战性的计算机视觉任务,因为手经常相互遮挡自己或彼此(例如手指/手掌遮挡和握手),并且缺乏高对比度模式。MediaPipe Hands是一种高保真手和手指跟踪解决方案。它采用机器学习(ML)来从一个帧中推断出手的21个3D界标。原创 2023-02-24 17:51:32 · 2287 阅读 · 0 评论 -
利用机器学习(mediapipe)进行人脸468点的3D坐标检测--视频实时检测
对于实时视频,代码跟图片检测几乎一致,这里我们需要设置STATIC_IMAGE_MODE检测模型为视频,而不是图片,然后打开我们电脑的默认摄像头,进行视频帧的抓取。我们使用for循环遍历所有的468个点,然后使用draw_landmarks方法画图,此方法接受5个参数。待视频帧的图片抓取后,就可以使用图片识别的方法进行图片的检测,并实时把检测结果显示在视频里面了。,我们我们介绍一下如何在实时视频中,进行人脸468点的坐标检测。上期文章,我们分享了。原创 2023-02-11 18:50:26 · 1877 阅读 · 2 评论 -
利用机器学习进行人脸468点的3D坐标检测,并生成3D模型
MediaPipe Face Mesh是一种脸部几何解决方案,即使在移动设备上,也可以实时估计468个3D脸部界标(dlib才能检测出68点)。它采用机器学习(ML)来推断3D表面几何形状,只需要单个摄像机输入,而无需专用的深度传感器。该解决方案利用轻量级的模型架构以及整个管线中的GPU加速,可提供对实时体验至关重要的实时性能。原创 2023-02-01 06:30:00 · 837 阅读 · 1 评论 -
Face Mesh,采用机器学习,打造人脸3D表面动态轮廓
MediaPipe Face Mesh是一种脸部几何解决方案,即使在移动设备上,也可以实时估计468个3D脸部界标。它采用机器学习(ML)来推断3D表面几何形状,只需要单个摄像机输入,而无需专用的深度传感器。该解决方案利用轻量级的模型架构以及整个管线中的GPU加速,可提供对实时体验至关重要的实时性能。此外,该解决方案与"人脸几何"模块捆绑在一起,该模块弥合了人脸界标估计与有用的实时增强现实(AR)应用程序之间的差距。它建立了一个公制3D空间,并使用人脸界标屏幕位置来估计该空间内的人脸几何形状。原创 2023-01-27 12:12:18 · 2080 阅读 · 0 评论 -
Google发布MediaPipe,移动设备3D对象检测模型
仅通过在照片上训练模型,机器学习(ML)的最新技术就已经在许多计算机视觉任务中实现了卓越的准确性。基于这些成功和不断发展的3D对象理解,在增强现实,机器人技术,自主性和图像检索等广泛应用方面具有巨大潜力。例如,今年早些时候,Google发布了MediaPipe Objectron(一套针对移动设备设计的实时3D对象检测模型),它们在完全注释的真实3D数据集上进行了训练,可以预测对象的3D边界框。3D模型。原创 2023-01-07 11:51:01 · 607 阅读 · 0 评论 -
Mediapipe视频检测人体姿态,人手检测以及人脸检测
我们分享了mediapipe的Holistic代码检测部分,但是哪里介绍了图片的检测,本期我们介绍一下如何在视频中进行Holistic的人体姿态检测与人手检测以及人脸检测。首先跟图片检测一致,我们建立一个holistic检测模型,然后便可以打开摄像头进行模型的检测。使用此函数便可以镜像我们的图片影像,最后把图片赋值给holistic模型进行检测。检测完成后,我们便可以把数据实时进行绘制,以便在视频中实时进行结果的查看。检测到图片后,我们便可以直接使用图片检测的步骤,进行模型的检测。原创 2023-01-02 08:00:00 · 556 阅读 · 0 评论 -
MediaPipe 集成人脸识别,人体姿态评估,人手检测模型
画图完成后,我们可以显示图片方便查看,也可以直接使用OpenCV的imwrite 函数进行结果图片的保存,最后只需要close holistic检测模型,这里在检测多人的时候出现了问题,只是检测了单人,我们后期研究。对于姿势模型的精度足够低以至于所得到的手的ROI仍然不够准确的情况,但我们运行附加的轻型手重新裁剪模型,该模型起着的作用,并且仅花费了手模型推断时间的10%左右。这里我们打印了图片检测的结果,并分别画出人脸检测模型数据,人左右手的检测数据,以及人体姿态检测数据。MediaPipe 的核心框架。原创 2023-01-01 10:57:40 · 1633 阅读 · 0 评论 -
MediaPipe Holistic--Google面部,手势与姿势预测算法
今天,我们很高兴宣布推出,它是针对这一挑战的解决方案,它提供了一种新颖的,最新的人体姿势拓扑结构,可以解锁新颖的用例。MediaPipe Holistic由新的流水线组成,这些流水线具有经过优化的姿势,和组件,每个组件均实时运行,其推理后端之间的内存传输最少,并增加了对这三个组件的互换性的支持,具体取决于质量/速度的权衡。另外,姿势模型的输入帧的分辨率足够低,以致于脸部和手部的最终ROI仍然不够准确,无法指导那些区域的重新裁剪,这需要精确的输入裁剪来保持轻巧。流水线的多阶段性质提供了另外两个性能优势。原创 2022-12-21 11:16:01 · 1833 阅读 · 0 评论 -
辅助驾驶技术——基于mediapipe的驾驶人睡意检测
本期我们介绍了如何使用mediapipe来进行驾驶员睡意检测,但是我们只是进行了一张图片的检测,且真实情况下,人会不停的眨眼睛,因此,我们还需要进行时间的判断,超过多少时间的眼睛闭合才真正算是驾驶员有睡意,我们后期再进行详细的分享。当然,我们可以多收集一些数据,计算一个人眼睁开与闭合的数据,通过多个数据,计算一个比较合适的阈值,通过此阈值,我们检测到的人眼尺寸与此阈值来做对比,以便进行驾驶人的睡意检测。可以看到,当人眼闭合时,根据EAR的计算公式,其值就会很小,当人眼睁开时,其值就会变大。原创 2022-12-14 17:00:00 · 703 阅读 · 0 评论 -
YOLOv7与MediaPipe在人体姿态估计上的对比
由于MediaPipe是一个单人检测框架,因此在视频中,MediaPipe只检测单个人的姿态,其他人体姿态则会忽略,当然,软件会检测哪个人体姿态,理论上是最前面的人体姿态,但是通过实验后,其实并不完全是这样。YOLOv7姿态是在COCO数据集上训练的,前期的文章我们也分享过YOLOv7人体姿态检测的代码。但是一旦上GPU,yolov7的优势就会大大的提高,可以看到,一旦用上了GPU,yolov7的检测速度就达到了84FPS,而由于mediapipe仅仅用于CPU,就算加上GPU,也发挥不到GPU的优势。原创 2022-11-26 17:36:32 · 2632 阅读 · 0 评论