基于深度学习的行为识别框架和注意力机制的总结

zkxhlbt

于 2021-03-09 21:53:52 发布

阅读量850

点赞数

分类专栏：总结文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zkxhlbt/article/details/114600634

版权

总结专栏收录该内容

2 篇文章

订阅专栏

本文概述了多种视频理解和处理的技术架构，包括2D和3D卷积神经网络、注意力机制及基于Transformer的方法，并探讨了它们在不同场景下的应用，如视频动作识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2DCNN

Two-stream
TSN
TSM：惊艳，领会精神了，还没认真读。
Inception
Resnet

3DCNN

C3D
I3D
S3D
可以由很强的2D 架构拓展而来

(2+1)D

R(2+1)D

注意力机制

SENET : channel-wise attention
SKNET: channel-wise+selective RFs
NON-local: self-attention

Transformer

经典架构：Attention is all you need
ViT
BERT：用于处理长文本，但segment之间不能交流就很伤
transformer XL: 用于处理长文本，解决了segment之间不能交流的问题。但只能单向交流，很伤。
Longformer: 用于处理长文本，解决了transformer xl只能单向交流的问题。

VTN（2021）：利用CNN提取视频特征，用基于Longformer的结构处理长视频。代码还未开源。草

video action transformer network（2019的oral）：用于处理时长较短的数据集，如AVA, 只有三秒，标记其中的一个关键帧。文章用I3D抽取特征，在中间层把数据拿出来，将中间的帧作为关键帧，用RPN选出300个物体框，经过ROIPool把框size统一,然后用Qpr处理人物的框。这里Qpr有两种方法，一种是直接全局平均池化，一种是将ROI分的块CAT起来(存疑)。经过处理后，人物框复制与帧同样多份，以便同时对多帧querry。之后就是应用多头机制，与attentionisallyouneed几乎一样的结构。论文效果很好，但想了想参数量很高。如果要应用在其他数据集上，可以将RPN部分去掉。

近期准备复习一下这些论文，再更。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。