SlowFast泛读【SlowFast Networks for Video Recognition】

目录

0、前沿

1、标题

2、摘要

3、结论

4、重要图表

5、解决了什么问题

6、采用了什么方法

7、达到了什么效果


0、前沿

        泛读我们主要读文章标题,摘要、结论和图表数据四个部分。需要回答用什么方法,解决什么问题,达到什么效果这三个问题。 需要了解更多视频理解相关文章可以关注视频理解系列目录了解当前更新情况。

1、标题

        SlowFast Networks for Video Recognition

        基于快慢网络的视频识别

2、摘要

        We present SlowFast networks for video recognition. Our model involves (i) a Slow pathway, operating at low frame rate, to capture spatial semantics, and (ii) a Fast pathway, operating at high frame rate, to capture motion at fine temporal resolution. The Fast pathway can be made very lightweight by reducing its channel capacity, yet can learn useful temporal information for video recognition.

        Our models achieve strong performance for both action classification and detection in video, and large improvements are pin-pointed as contributions by our SlowFast concept. We report state-of-the-art accuracy on major video recognition benchmarks, Kinetics, Charades and AVA. Code has been made available at: https://github.com/ facebookresearch/SlowFast

        我们提出了用于视频识别的SlowFast网络。我们的模型包括(i)在低帧率下运行的慢通道,以捕捉空间语义信息,以及(ii)在高帧率下运行的快通道,以捕捉更细的时序分辨率的运动信息。快通道可以通过减少其通道容量使其非常轻量级,但可以学习有用的时间信息进行视频识别。

        我们的模型在视频中的动作分类和检测中都表现出了强大的性能,而我们的SlowFast概念也被认为是一个很大的改进。我们在主要的视频识别基准(Kinetics, Charades and AVA)上都报告了SOTA精度。代码放在https://github.com/ facebookresearch/SlowFast

3、结论

       The time axis is a special dimension. This paper has investigated an architecture design that contrasts the speed along this axis. It achieves state-of-the-art accuracy for video action classification and detection. We hope that this SlowFast concept will foster further research in video recognition

        时间轴是一个特殊的维度。本文研究了一种网络架构,它对比了沿这条轴的速度。它在视频分类和检测上能获取SOTA精度。我们希望SlowFast这个概念将促进视频识别方面的进一步研究。

4、重要图表

         图1:一个SlowFast网络具有低帧率、低时间分辨率的慢通道和一个高帧率、α×的高时间分辨率的快通道。快通路可以通过通道的切分变的轻量。横向链接又将它们融合到一起。

        表1: 一个SlowFast例子。{T x {_{S}}^{2},C}分别表示时间,空间和通道大小,步长也一样的格式。这里速率比α = 8,通道比为β = 1/8,τ 是16。在快通道中,绿色标记出了其有更高的速率,橙色标记其有更少的通道。非退化的时间过滤器我们划线标出来了。残差块我们用方括号标出来了,骨干网用的是ResNet-50。

        表2:与K400上SOTA算法比较。 最后一列,我们列出了单个“view”的推理成本,view=时间切片上的空间裁剪乘数量。我们列出了不同的输入采样(T×τ)和骨干网络(R-50, R-101, NL)组成的SlowFast模型。“N/A”表示这个数字对我们的实验比较不合适。

 

        图2:K400上,SlowFast和Slow-Only精度和复杂度的权衡比较。 在所有情况下,SlowFast都比Slow-only好,与Slow-Only相比,SlowFast有更高的精度和更低的成本。复杂度是单个256的view,精度是通过30-view测试得到。 

        表3:与K600上SOTA算法比较,模型使用的和表2一样。 

        表4:与Charades上SOTA算法比较,所有的变体都是基于T×τ = 16×8, R-101。 

        表5:在K400上的快通道消融实验。 我们报告了top-1和top-5精度,使用GFLOPs来衡量复杂度。我们固定使用30views,所以推理的计算成本是成正比的。骨干网使用的4x16,R-50。

        表6: 不使用预训练和使用ImageNet预训练得到了类似结果。

        表7:与AVAv2.1上的SOTA算法比较。 所有变体都基于T×τ = 8×8, R101。“*”是我们一个region proposals的训练方法。

 

        表8:在v2.2上。“++”表示我们使用过多尺度和水平翻转进行数据增强。骨干网是R-101+NL和region proposals。

        图3:AVA上每个分类的AP。Slow-Only和SlowFast,黑色高亮是5个绝对增长前5,橙色高亮是Slow-only增长前5。分类是通过数量来排序的。需要指出的是,消融实验用的SlowFast不是我们最好的模型。

        表9:Slow-only和SlowFast在AVA动作检测上的基线。

5、解决了什么问题

        时间轴在视频中是一个特殊的维度,很有研究价值。

6、采用了什么方法

        快慢两个通道使用不同的分辨率。

7、达到了什么效果

        主要视频任务都达到SOTA。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值