揭开视频识别(动作识别)的神秘面纱(附代码和demo)!

PaddleDetection

在计算机视觉中,视频识别和检测是一个重要的方向。历年来CVPR和ICCV等顶会文章中这类论文是最多的。视频识别和检测也是最有落地场景前景的,像人脸识别、动作检测、异常检测、行人重识别、行人计数等都是很有落地前景的应用方向。本文介绍百度PaddlePaddle推出PP-Human行为识别模块,覆盖视频分类、检测、关键点识别等重要领域,既有demo又有代码,是初学者很好的入门学习资料。

Gitee链接:https://gitee.com/paddlepaddle/PaddleDetection/blob/release/2.6/deploy/pipeline/docs/tutorials/pphuman_action.md

基于骨骼点的识别

基于骨骼点关键点识别有ST-GCN框架,主要把人体分为21个重要关节点,根据这些关节点不同的动作有不同的连接方式,运用图神经网络进行分类识别,应用场景有跌倒检测、动作检测等。

跌倒检测

基于骨骼点的行为识别包含行人检测/跟踪,关键点检测和摔倒行为识别三个模型,首先需要下载以下预训练模型:

方案说明

使用多目标跟踪获取视频输入中的行人检测框及跟踪ID序号,模型方案为PP-YOLOE,,跟踪方案为OC-SORT。

通过行人检测框的坐标在输入视频的对应帧中截取每个行人。使用关键点识别模型得到对应的17个骨骼特征点。骨骼特征点的顺序及类型与COCO一致。每个跟踪ID对应的目标行人各自累计骨骼特征点结果,组成该人物的时序关键点序列。当累计到预定帧数或跟踪丢失后,使用行为识别模型判断时序关键点序列的动作类型。当前版本模型支持摔倒行为的识别,预测得到的class id对应关系为:

0: 摔倒, 1: 其他

基于图像分类的行为识别

基于图像分类的行为识别包含行人检测/跟踪,打电话识别两个模型,首先需要下载以下预训练模型:

方案说明

使用目标检测与多目标跟踪获取视频输入中的行人检测框及跟踪ID序号,模型方案为PP-YOLOE,跟踪方案为OC-SORT,详细文档参考OC-SORT。

通过行人检测框的坐标在输入视频的对应帧中截取每个行人。 通过在帧级别的行人图像通过图像分类的方式实现。当图片所属类别为对应行为时,即认为在一定时间段内该人物处于该行为状态中。该任务使用PP-HGNet实现,当前版本模型支持打电话行为的识别,预测得到的class id对应关系为:

0: 打电话, 1: 其他

基于行人轨迹的行为识别

行人轨迹识别可以应用在闯入识别。如某一区域是禁止行人踏入的,当有人踏入时进行报警。

方案说明

使用多目标跟踪获取视频输入中的行人检测框及跟踪ID序号,模型方案为PP-YOLOE,跟踪方案为OC-SORT。

通过行人检测框的下边界中点在相邻帧位于用户所选区域的内外位置,来识别是否闯入所选区域。

基于视频分类的行为识别

视频分类识别可以应用在异常动作识别、打架识别等场景上。

该方案关注的场景为监控摄像头下的打架行为识别。打架行为涉及多人,基于骨骼点技术的方案更适用于单人的行为识别。此外,打架行为对时序信息依赖较强,基于检测和分类的方案也不太适用。由于监控场景背景复杂,人的密集程度、光线、拍摄角度等都会对识别造成影响,本方案采用基于视频分类的方式判断视频中是否存在打架行为。针对摄像头距离人较远的情况,通过增大输入图像分辨率优化。由于训练数据有限,采用数据增强的方式提升模型的泛化性能。

打架识别模型基于6个公开数据集训练得到:Surveillance Camera Fight Dataset、A Dataset for Automatic Violence Detection in Videos、Hockey Fight Detection Dataset、Video Fight Detection Dataset、Real Life Violence Situations Dataset、UBI Abnormal Event Detection Dataset。

预测速度为NVIDIA T4 机器上使用TensorRT FP16时的速度, 速度包含数据预处理、模型预测、后处理全流程。

由上面几个应用场景可知,PaddlePaddle推出的PP-Human模块有很好的应用前景,开箱即用,如果大家想入门视频检测可以先去Gitee看上面的代码和运行demo。

gitee链接:https://gitee.com/paddlepaddle/PaddleDetection

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
【资源说明】 基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip 基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip 基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip基于VGG16-LSTM进行基于关键帧的视频场景识别python源码.zip 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
### 回答1: openpose是一种基于深度神经网络的人体姿态估计算法,用于从视频识别人体的关键点位置。该算法能够通过识别人体的关键点来描绘出人体的姿态,包括头部、手臂、腿部等各个关节的位置和角度。 使用openpose进行视频识别的过程大致分为三个步骤。首先,将视频输入到openpose算法中,算法会提取每一帧图像中的人体关键点位置,并生成对应的关键点向量。这些关键点包括人体的头、脖子、肩膀、手臂、腿部等。 接下来,openpose会对每个关键点进行连接,形成一个完整的人体姿态图。这个图像可以展示出人体各个关节的位置和角度,并通过颜色或线条的不同来表示不同的姿态信息。 最后,openpose会将生成的姿态图与原始视频进行合并,形成一个具有姿态标记的视频。通过观看这个视频,我们可以清晰地看到人体在不同时间点的姿态变化,可以用于分析人体动作、运动技巧、姿势正确性等方面。 openpose视频识别在很多领域有着广泛的应用,特别是在运动科学、人体动作分析和姿势检测等方面。例如,在体育训练中,教练可以使用openpose识别视频来分析运动员的姿态,以便提出改进建议。在医学领域,该技术也可以用于康复训练中,帮助患者改善姿态和动作的准确性。 总之,openpose视频识别技术通过深度学习算法,能够准确地识别人体姿态并提取关键点信息,为各个领域的研究和应用提供了有力的工具和方法。 ### 回答2: OpenPose是一种基于深度学习的视频姿态识别技术。通过分析视频中人物的身体动作,可以实时捕捉和追踪其身体部位的位置和姿势。 OpenPose的算法使用卷积神经网络来提取身体部位的特征,并应用图像处理技术进行人体姿势的估计。它能够对视频中的每个人进行多人姿势估计,识别出头部、肩膀、手臂、腿部等身体部位的位置,以及它们之间的姿势关系。 OpenPose的应用广泛,可以用于人体行为分析、手势识别、虚拟现实等领域。在人体行为分析中,通过对人体姿势的识别和追踪,可以分析人物的活动模式、动作类别、姿势变化等信息,用于医疗、体育训练、安防监控等领域。 OpenPose的视频识别能力较强,能够实时处理高清视频,并能够处理复杂的场景和多个人物的姿势追踪。它使用GPU加速技术,提高了处理速度和准确性,并且具有较高的鲁棒性,可以适应不同光线、遮挡和背景干扰的情况。 总而言之,OpenPose视频识别技术是一种利用深度学习和图像处理算法进行人体姿势估计和追踪的方法。它具有广泛的应用前景,可以用于人体行为分析、手势识别、虚拟现实等领域,有着较强的实时性、准确性和鲁棒性。 ### 回答3: openpose视频识别是一种计算机视觉技术,旨在通过对视频进行分析和处理,识别视频中人体的姿势、动作和关节信息。它基于深度学习算法,能够自动进行人体关节点检测和姿势估计,从而实现准确的人体姿势分析。 openpose视频识别的原理是通过对视频帧进行图像处理和特征提取,得到每个视频帧中人体的关节点位置信息。关节点表示人体的关节位置,如头部、手臂、腿部等。通过对连续视频帧的关节点信息进行跟踪,就能够获得人体在整个视频中的运动轨迹和动作状态。 在应用方面,openpose视频识别可以广泛应用于多个领域。例如,在体育领域,可以用于分析运动员的姿势和动作,提供训练建议和姿势矫正;在健康领域,可以用于监测老年人或患有运动障碍的患者的日常活动,提供健康管理支持;在娱乐领域,可以用于增强现实游戏或虚拟现实体验,提供身体互动和虚拟角色控制等。 总之,openpose视频识别是一项强大的计算机视觉技术,具有广泛的应用前景。它能够准确地捕捉和分析视频中的人体姿势和动作,帮助我们了解和掌握人体运动特征,在多个领域中发挥重要作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小谢先生

支持知识付费

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值