Action Recognition动作识别-----论文阅读

最新推荐文章于 2024-06-14 09:15:37 发布

云端一散仙

最新推荐文章于 2024-06-14 09:15:37 发布

阅读量518

点赞数

分类专栏： Recognition in video 文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44347020/article/details/106276862

版权

Recognition in video 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近阅读关于Action Recognition的论文小结：

Learning Spatiotemporal Features with 3D Convolutional Networks
paper：C3D
提出了使用C3D网络来提取视频的空间时间特征。相比于2D网络，3D网络能够更好的提取特征
Two-Stream Convolutional Networks for Action Recognition in Videos
paper：Two-Stream
提出了two-stream架构，由空间和时间两个网络组成，并且使用多任务训练的方法，即在全连接层后接两个softmax，不同的softmax对应不同的数据集，在最后BP算法时，把两个softmax层的输出加和，作为总的误差执行BP算法更新网络的权值。
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
paper：TSN
提出了TSN模型，基于长范围时间结构（long-range temporal structure）建模，结合了稀疏时间采样策略（sparse temporal sampling strategy）和视频级监督（video-level supervision）来保证使用整段视频时学习得有效和高效（通过将整段视频分段然后采样的方式，使得网络能够处理更长时间的视频）。
Temporal Relational Reasoning in Videos
paper：TRN
提出了一个TRN模型，提取 Temporal Relational Reasoning in Videos，与C3D和I3D相比，有更强的可解释性网络。论文中也做了一个有关时序的实验，比较打乱的时间顺序和正常的时间顺序，也就是视频的帧打乱和正常。
TRN 和 TSN相比有一些不同，TSN的fusion函数采用average pooling，TRN采用MLP( concat feature – ReLU – FC – ReLU – FC)的结构来实现。
TRN通过时间维度上Multi-scale 特征融合，来提高video-level鲁棒性，起码能抗快速动作和慢速动作干扰。
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
paper：I3D
提出了I3D（Two-Stream Inflated 3D ConvNet ）模型，基于Inception-V1模型，把双流的思想加到3D-ConvNet当中来
On the Integration of Optical Flow and Action Recognition
paper：光流与行为识别的结合研究
对光流在行为识别中的作用进行了深入的研究，探讨了为什么光流在行为识别中是有效的，在行为识别中怎么样的光流才是好的以及我们应该如何改进光流。作者基于实验得出一些结论：
1.光流在行为识别模型中很有效，并不是因为它能够捕捉运动信息，而主要是因为光流对图像外观的不变性。
2.光流算法通常使用终点误差（end-point-error, EPE）来衡量，但EPE的大小与行为识别效果的好坏并没有很强的相关性
3.光流算法在边缘以及小位移部分的准确度对动作识别的效果的相关性比较大。
4.用行为识别分类误差来训练（fine tune）光流比起用EPE误差来能获得更好的行为识别效果。
5.使用行为识别分类误差来训练得到的光流，与普通的光流的差异主要集中在人体的内部与边缘区域。
End-to-end Video-level Representation Learning for Action Recognition
paper：DTPP
提出了一种基于时间金字塔池(DTPP)的深层网络，一种端到端视频级表示学习方法，使用时间金字塔池层将帧级特征聚合到固定大小的视频级表示中，以多尺度方式捕获视频的时间结构。具体地说，首先，RGB图像和光流堆栈要在整个视频中进行稀疏采样。然后利用时间金字塔池层来聚集由空间和时间线索组成的帧级特征。最后，该模型具有紧凑的视频级表示，具有多个时间尺度，具有全局和序列感知。

云端一散仙

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Action Recognition动作识别-----论文阅读

最近阅读关于Action Recognition的论文小结：Learning Spatiotemporal Features with 3D Convolutional Networkspaper：C3D提出了使用C3D网络来提取视频的空间时间特征。相比于2D网络，3D网络能够更好的提取特征Two-Stream Convolutional Networks for Action Recognition in Videospaper：Two-Stream提出了two-stream架构，由空间和时
复制链接

扫一扫

专栏目录

云端一散仙 CSDN认证博客专家 CSDN认证企业博客

码龄6年

136: 原创

1万+: 周排名

1万+: 总排名

15万+: 访问

: 等级

2000: 积分

1713: 粉丝

207: 获赞

63: 评论

700: 收藏

私信

关注

热门文章

分类专栏

FFmpeg 1篇
CMake 1篇
c++ 43篇
Leetcode 9篇
OCR 1篇
深度学习 20篇
数学 5篇
点云与相机 1篇
opencv-python 1篇
NVIDIA 1篇
Linux 8篇
Docker 2篇
宝藏网站 1篇
boost 2篇
物体检测 13篇
图像分割 2篇
folly 1篇
多边形 1篇
LaTeX 1篇
Pytorch 6篇
OpenCV 3篇
IDE 1篇
Python 15篇
c#
ReID 1篇
爬虫 1篇
机器学习 4篇
Tensorflow 2篇
Mac 2篇
Recognition in video 1篇

最新评论

Yolact源码解析
Z2_: 您好，请问如何修改预测出的掩膜颜色呢，结果都是红色
字符串匹配
2401_83209713: 你好，可以帮你点云处理吗，报酬丰厚，期待回复，谢谢！已经关注您，期待回复。
基于mmdetection训练Swin Transformer Object Detection
J_C_Max_Well: IndexError: The shape of the mask [4392480] at index 0 does not match the shape of the indexed tensor [329436] at index 0 请问有高手来帮我修正一下这个bug吗
字符串匹配
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
running_mean和running_var
521zhangxx: 你好，问一下，当模型训练完成之后，使用该模型进行图片预测，在预测的时候，bn层怎么工作呢？y=ɣ*(x-avg/sqrt(var))+B，其中ɣ、B是weight、bias，那么avg和var怎么得到呢？你也说打印BN的参数只得到weight、bias，没有avg和bias。我希望用C语言把YOLO复现出来，但是在BN层出现问题了，不知道该怎么预测。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。