2DCNN
Two-stream
TSN
TSM:惊艳,领会精神了,还没认真读。
Inception
Resnet
3DCNN
C3D
I3D
S3D
可以由很强的2D 架构拓展而来
(2+1)D
R(2+1)D
注意力机制
SENET : channel-wise attention
SKNET: channel-wise+selective RFs
NON-local: self-attention
Transformer
经典架构:Attention is all you need
ViT
BERT:用于处理长文本,但segment之间不能交流就很伤
transformer XL: 用于处理长文本,解决了segment之间不能交流的问题。但只能单向交流,很伤。
Longformer: 用于处理长文本,解决了transformer xl只能单向交流的问题。
VTN(2021):利用CNN提取视频特征,用基于Longformer的结构处理长视频。代码还未开源。草
video action transformer network(2019的oral):用于处理时长较短的数据集,如AVA, 只有三秒,标记其中的一个关键帧。文章用I3D抽取特征,在中间层把数据拿出来,将中间的帧作为关键帧,用RPN选出300个物体框,经过ROIPool把框size统一,然后用Qpr处理人物的框。这里Qpr有两种方法,一种是直接全局平均池化,一种是将ROI分的块CAT起来(存疑)。经过处理后,人物框复制与帧同样多份,以便同时对多帧querry。之后就是应用多头机制,与attentionisallyouneed几乎一样的结构。论文效果很好,但想了想参数量很高。如果要应用在其他数据集上,可以将RPN部分去掉。
近期准备复习一下这些论文,再更。