基于mediapipe的姿态识别和简单行为识别

智刃纪元

已于 2022-07-27 16:47:43 修改

阅读量2.1w

点赞数 78

分类专栏：有意思的代码文章标签： python 计算机视觉开发语言

于 2022-07-27 16:22:45 首次发布

本文链接：https://blog.csdn.net/weixin_44463519/article/details/126001385

版权

本文介绍了如何利用Mediapipe进行人体姿态关键点检测和自定义行为识别。首先讲解了Mediapipe的安装和人体关键点检测的基本步骤，包括图片和视频的处理。接着，通过关节角度识别，实现了简单的行为如举手、叉腰等的判断。最后，给出了代码示例和实际效果展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

学习目标
- 1、可以识别到人体姿态关键点
- 2、可以通过角度识别的方法识别到人体的动作（自定义）
一、mediapipe的安装
二、使用mediapipe检测关键点
三、使用mediapipe-BlazePose检测自定义简单行为
- 1、原理介绍
- 2、实现过程

学习目标

1、可以识别到人体姿态关键点

2、可以通过角度识别的方法识别到人体的动作（自定义）

源码地址：🚀🚀🚀🚀

一、mediapipe的安装

其实这部分很简单，直接在windows命令行的环境下

pip install mediepipe

就可以啦

二、使用mediapipe检测关键点

1、mediapipe的介绍

Mediapipe是一个用于构建机器学习管道的框架，用户处理视频、音频等时间序列数据。这个跨平台框架适用于桌面/服务器、Android、ios和各类嵌入式设备。
目前mediapipe包含16个solutions，分别为

人脸检测
Face Mesh
虹膜
手
姿态
人体
人物分割
头发分割
目标检测
Box Tracking
instant Motion Tracking
3D目标检测
特征匹配
AutoFlip
MediaSequence
YouTuBe_8M

![在这里插入图片描述](https://img-blog.csdnimg.cn/1fbcd4d624b14681995fdc90882f2006.png

总的来说，mediapipe是一个很好的库，可以解决我们处理ML项目中面临的大部分麻烦，而且很适合做行为识别方向的小伙伴练手使用。

2、使用mediapipe检测人体

这里仅使用mediapipe关于人体识别的方法（solution），谷歌官方将这种人体姿态识别的方法叫做Blazepose。

（0）检测前的准备工作

'''导入一些基本的库'''
import cv2
import mediapipe as mp
import time
from tqdm import tqdm
import numpy as np
from PIL import Image, ImageFont, ImageDraw
# ------------------------------------------------
#   mediapipe的初始化
# 	这一步是必须的，因为要使用到以下定义的几个类
# ------------------------------------------------
mp_pose = mp.solutions.pose
mp_drawing = mp.solutions.drawing_utils
pose = mp_pose.Pose(static_image_mode=True)

（1）检测图片

def process_frame(img):
    start_time = time.time()
    h, w = img.shape[0], img.shape[1]               # 高和宽
    # 调整字体
    tl = round(0.005 * (img.shape[0] + img.shape[1]) / 2) + 1
    tf = max(tl-1, 1)
    # BRG-->RGB
    img_RGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    # 将RGB图像输入模型，获取 关键点 预测结果
    results = pose.process(img_RGB)
    keypoints = ['' for i in range(33)]
    if results.pose_landmarks:
        mp_drawing.draw_landmarks(img, results.pose_landmarks, mp_pose.POSE_CONNECTIONS)
        for i in range(33):
            cx = int(results.pose_landmarks.landmark[i].x * w)
            cy = int(results.pose_landmarks.landmark[i].y * h)
            keypoints[i] = (cx, cy)                                 # 得到最终的33个关键点
    else:
        print("NO PERSON")
        struction = "NO PERSON"
        img = cv2.putText(img, struction, (25, 100), cv2.FONT_HERSHEY_SIMPLEX, 1.25, (255, 255, 0),
                          6)
    end_time = ti