2021/12/02 初次做动作识别项目经历和总结（二）

最新推荐文章于 2025-04-11 14:06:16 发布

Xaivor

最新推荐文章于 2025-04-11 14:06:16 发布

阅读量1.3k

点赞数 7

分类专栏：经历小程序文章标签：前端

本文链接：https://blog.csdn.net/weixin_43759645/article/details/121683908

版权

经历同时被 2 个专栏收录

16 篇文章

订阅专栏

小程序

5 篇文章

订阅专栏

1.前言

上节，我们说到反编译了别人的小程序，拿到了核心技术，poseNet，TensorFlowJS的姿态识别模型，正因为发现了这个模型，证实了能在小程序客户端识别姿态，因此，接下来，就是用这一门技术，TensorFlowJS

2. 小程序阶段（初步）

TensorFlowJS，这个名字，在我脑海里一直留存着，并且这也是我的微信名称。

说起来也是有缘，正好，三年前刚工作的我，当时看着前辈们，花里胡哨的微信名称（各种技术名称），我和我的小伙伴们，都纷纷去网上找，符合自己又向往的技术。

在网络上各种技术专词当中，我第一眼，就相中了TensorFlow-人工智能，因为我知道，未来，智能化是一个趋势。

并且那时，TensorFlow就已经涉及前端领域，也就是TensorFlowJS，它就是我们前端的智能框架，我也十分好奇，它是如何能实现智能化的。

当时的我，深深被这个技术吸引了，微信名称马上就换成了TensorFlow。

现在我知道，我们可以用它的api来，创建模型，训练模型，也可以调用它里面自成的模型，来进行一些相关的识别。

没错，所以我们就使用了TensorFlowJS里面的模型-posenet，并实现了初步的姿态识别。

小程序相较h5，它需要添加一个TensorFlowJS的插件，其他所依赖的包，也需要构建npm，才能使用。

当时，posenet模型出来，也有一定时间了，一些坑点不能说没有，还是有不少，我借鉴着网上别人的经验，反复调用api并进行调参。

最终，解决了谷歌模型跨域（解决使用了国内镜像地址），相机帧率过高导致内存泄漏（解决使用栈的概念，只存一帧，并使用定时器，调整帧率），点位不准（解决调整camera相机参数，canvas画布大小要与camera分辨率一致）等一系列问题后。

我们的动作识别demo雏形逐渐浮出水面，看着手机里随着自身跳动的火柴人，心底的喜悦又更甚了几分。

但略有不足的是，往往背景太过复杂或者与实体颜色相似的情况下，点位不断跳动（精准度不高，容易被背景干扰），难以定位。

由于考虑到受众人群是一般患者，在家里，在室外，任何背景下，都可以进行康复训练，所以这就导致，一定要将去除背景干扰的影响，至少干扰程度要降到最低。

保松哥，是python大佬，就针对于这个问题，我和他沟通了许久，他建议我将背景分割处理，然后将切割的图像进行识别，这样的去做，肯定大大降低了背景的干扰。

嗯，说的有道理，我就带着这份希望，去TensorFlowJS官网查找一些去除背景的模型，心想，这种去除干扰的方法，谷歌大佬们应该都踩过吧。

果不其然，bodyPix，谷歌开源的人体分割算法的模型，早早的加入到了tfjs-model模型库里面，这突如其来的惊喜（白嫖），犹如一柄长枪，捅穿了成堆的困难险阻。

仔细地过了一遍github文档，竟然发现，bodyPix竟然沿用了posenet模型一样的数据结构，这将大大地减少了，我换模型的时间，只需要将模型导入，和读取的方法名替换一下，就完成了poseNet =>bodyPix的转变。

改版后，我满怀信心，邀请了保松哥和志坚哥，来看看姿态识别小程序，看看之前点位被背景干扰，导致不准的问题，或者说还有没有需要优化改进的地方。

我们测了所有能测的环境，整个流程走下来后，发现效果改进不大，精准度并没有提升很高，如果在相似颜色背景下，抬起手臂的时候，点位还是没有跟着手臂走上去，或者有些时候点位老是上下跳动。

不应该啊，这分割了背景，降低了背景干扰的影响，按道理来说，能拉的都拉满了。

思来想去，也只能把锅甩给平台和模型，模型对于移动端兼容性和性能，还是比不上pc和服务器。

当时，完成bodyPix的那个版本，从拿到需求，已经快过去两个星期了，后续又接手了其他项目，这个小程序，除了特殊情况，识别准度都够，当时没有想到其他更好的方法，所以就搁置了一段时间。

万万没有想到，接下来，就是见证封神的旅程。。。

3. 小程序阶段（终）

由于忙其他项目，搁置了识别优化，闲暇时间，无意之间在TensorFlowJS Hub Blog里面翻到了不久前的资讯。

开头标题就是暴击，谷歌推出最新动作检测模型Movenet。

我滴天，最新，动作检测，就这标题，两暴击词，直冲我世界观，让我想起了之前posenet和bodypix的模型。

它们，都是好几年前的模型了，而且仅仅是姿态（pose）识别，最佳效果是以识别图片姿态，所以相机识别可能会导致有些点位识别不准。

而此MoveNet模型，竟然有此等能耐，被叫做动作（move）检测模型，它又是如何检测运动过程中人体的关键点的呢？

预览了一遍，发现movenet会有对称猜测，缓存前面的帧，对后续的帧进行预计算，也就是视频训练，识别精度相对来说，特别强。

而且MoveNet 是在两个数据集上训练的：COCO 和一个名为 Active 的谷歌内部数据集。虽然 COCO 是检测的基准数据集 —— 由于其场景和规模的多样性 —— 但它并不适合于健身和舞蹈应用，因为它们的姿态具有挑战性，动作也很模糊。Active 通过在 YouTube 上的瑜伽、健身和舞蹈视频中标注关键点（采用了 COCO 的 17 个身体关键点标准）而产生。在训练时，每段视频不要超过三帧，以促进场景和个体的多样性。（+精准度提升）

对于 Active 验证数据集的评估表明，与仅使用 COCO 训练的相同架构相比，性能得到了显著提高。这并不令人惊讶，因为 COCO 通常不会表现出极端的个人姿态（比如瑜伽，俯卧撑，倒立等等)。（+性能提升）

并且官方为对 MoveNet 的推理速度进行量化，该模型在多个设备上进行了基准测试。在使用 WebGL 的 GPU 和 WebAssembly（WASM）上测量了模型的延迟。（+兼容性提升）

三方面都增强了，bodyPix都已经够强了，movenet这岂不是，乱杀局面，我已经想象到了用movenet识别模型跑起来的画面了，那画面，不要太完美。

替换模型的工作，我已经不是第一次了，替换下来，发现，有些参数根本不需要填写，因为使用默认值，就已经是最好的配置了。

替换成movenet的识别小程序，已经从姿态识别，过渡到动作识别了，所以现在叫做动作识别小程序

不出我所望，movenet所展现来的效果，完美解决了之前的总总问题，甚至还能预测我相机范围外的点，自然而然地收获了领导们的赞赏和肯定。

（天时，movenet出来的时间正好在我做项目的时候，解决了我燃眉之急。）

（地利，早在2年前，就对TensorFlowJS感兴趣，目前工作中需要用到。）

（人和，有着保松哥前辈的经验，还有志坚哥领导的支持。）

占据了天时地利人和，我以一己之力，见证了动作识别小程序，从零到有，从有到优的过程。

动作识别小程序的经历，犹如人生经历一般，喜忧参半，你永远不知道下一颗糖是什么滋味！