【Paper Reading】SlowFast Networks for Video Recognition

最新推荐文章于 2024-08-31 23:13:29 发布

容嬷嬷当年一枝花

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量868

点赞数

文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_44898140/article/details/126902255

版权

Motivation

部分灵感来自于灵长类动物视觉系统中视网膜神经节细胞的生物学研究，尽管有些粗糙和不成熟。研究发现，在这些细胞中，80% 为细小细胞(P 细胞) ，15-20% 为巨细胞(M 细胞)。M 细胞在高时间频率下工作，对快速的时间变化有反应，但对空间细节或颜色不敏感；P 细胞提供精细的空间细节和颜色，但时间解析度较低，对刺激反应较慢。

视觉内容的分类空间语义通常会缓慢发展。例如，挥手不会改变其作为“手”的身份，即使存在挥手动作的跨度；一个人总是在“人”的类别，即使他/她从步行到跑步。因此，范畴语义(以及它们的颜色、纹理、光照等)的识别可以相对缓慢地更新。

正在进行的动作可以比他们的主体身份进化得快得多，例如拍手、挥手、摇晃、走路或跳跃。可以期望使用快速刷新帧(高时间解析度)来有效地模拟潜在的快速变化的运动。

Method

提出了一种用于视频识别的双路径SlowFast模型：其中一个路径（Slow）被设计用来捕捉语义信息，可以通过图像或者一些稀疏的帧给出，并且它以低帧率和缓慢的刷新速度运行；另一条路径（Fast）通过快速刷新速度和高时间分辨率来捕捉快速变化的运动，尽管它的时间频率很高，但是这条路径是非常轻量级的，大概占总计算的20%（相似于 M 细胞比例），这是因为这条路径被设计成具有较少的通道和较弱的处理空间信息的能力，而这些信息可以由第一条路径以较少冗余的方式提供。这两条路径通过横向连接融合。
在这里插入图片描述
Slow 路径：可以是任何卷积模型，设置输入帧上的一个大的时间跨度 τ，也就是说，在 τ 帧里它只处理一帧。一个典型的 τ 值是16，这个刷新速度大约是30fps 视频里每秒采样2帧。将经由 Slow 路径采样的帧数表示为 T，则原始剪辑长度为 T × τ 帧。

与Slow 路径平行，Fas t路径是另一种卷积模型，目标是在时间维度上有一个良好的表示。Fast路径工作在 τ/α 的一个小的时间跨度上，其中 α > 1是 Fast 和 Slow 路径之间的帧速率比。这两个通路在同一个原始剪辑上运行，因此 Fast 通路采样 αT 帧（α 倍于 Slow 通路），一个典型的值是 α = 8。Fast 路径中不使用时间下采样层(既不使用时间池化也不使用时间跨度卷积) ，直到分类之前的全局池化层。因此，特征张量总是沿着时间维度有 αT 帧，尽可能保持时间保真度。Fast 路径是有一个比例 β (β < 1)通道的缓慢途径，典型值是 β = 1/8（FLOPs 通常是其通道缩放比率的二次项），这就是为什么快速路径比慢速路径更具计算效率的原因。

在图像对象检测中，横向连接是融合不同级别的空间分辨率和语义的流行技术。我们在每个阶段之间附上两个途径之间的一个横向连接，由于两条通路有不同的时间维度，所以横向连接需要做一下变换来匹配它们的维度。使用单向连接，将快速通路的特征融合到慢速通路中，侧向连接的输出通过加和或连接融入慢通路。，双向融合的实验发现了类似的结果。

最后，对每个路径的输出执行全局平均池。然后将两个混合特征向量拼接起来作为全连通分类器层的输入。

SlowFast 的想法是通用的，这意味着它可以用不同的主干网络和实现细节进行实例化。

与Two-Stream方法的不同

Two-Stream没有探索不同时间速度的潜力，而这是本文中的关键概念。

Two-Stream对两个流采用相同的骨干结构，而本文的 Fast 路径更轻量级。

光流是一种手工设计的表示，而且两流方法往往不能与流联合学习端到端，因此在方法学上是不能令人满意的。本文的方法不会计算光流，因此，是从原始数据端到端的学习。

容嬷嬷当年一枝花

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Paper Reading】SlowFast Networks for Video Recognition

Fast 路径是有一个比例 β (β < 1)通道的缓慢途径，典型值是 β = 1/8（FLOPs 通常是其通道缩放比率的二次项），这就是为什么快速路径比慢速路径更具计算效率的原因。另一条路径（Fast）通过快速刷新速度和高时间分辨率来捕捉快速变化的运动，尽管它的时间频率很高，但是这条路径是非常轻量级的，大概占总计算的20%（相似于 M 细胞比例），这是因为这条路径被设计成具有较少的通道和较弱的处理空间信息的能力，而这些信息可以由第一条路径以较少冗余的方式提供。，双向融合的实验发现了类似的结果。
复制链接

扫一扫