人工智能深度学习的经典视觉项目实战之行为识别(slowfast与3d卷积的视频分析，动作识别)

最新推荐文章于 2025-04-12 09:53:57 发布

weixin_58351028

最新推荐文章于 2025-04-12 09:53:57 发布

阅读量1k

点赞数 11

文章标签：深度学习人工智能算法神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58351028/article/details/143240438

版权

一。slowfast算法知识点通俗解读

slowfast是通用的行为识别框架(facebook)，项目中直接套用即可。

(1)slowfast算法知识点通俗解读

1）slowfast核心思想解读

动作(例如站，坐，说话，听，笑，哭，打等等）在变，这些动作是多个帧组成的小视频而不是单独的图片噢，但周围大环境不变。如何在视频中获取动作信息？如何获取环境信息？动作与环境如何融合？融合交给网络预测即可，难点是获得动作与环境特征。而每一帧静止图像都可通过2d卷积获取环境特征信息。动作信息一般就按序列来取，如前面5帧与后面5帧就有序列数据了，然后按3d卷积来提取这些信息就得到动作特征了。

2)核心网络结构模块分析

<1>分别获取高频(动作信息)与低频(环境信息)图像数据。例如一个序列有32帧图像，那每隔8帧(即stride=8)提取一张图片(静态特征)可作为环境信息。

<2>分别提取动作与环境特征。首先获取环境图像(数量相对小一点)后，后面接的网络结构可复杂点，卷积核小一点，特征提取丰富点。那取动作信息时，间隔的帧数就要取小点，例如刚才32帧图像中，取stride=2时就可得到16张作为动作图像了。对动作图像连接3d卷积时，因输入图像多了点，所以网络结构设计需简单点，提取的特征图与时间也需小一点，这里就有分别乘上a，b，其中a,b两个值是小于1的系数，这样提取动作时就会快点，这样就会与上面的环境特征能同步起来(因为是同一时间序列的特征)。

<3>在做2d卷积进行环境特征与3d卷积进行动作特征提取过程时，也会不断由动作特征融合到环境特征(两个特

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

weixin_58351028 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。