原论文SlowFast Networks for Video Recognition
这篇工作是何凯明团队在2019年提出的分开处理空间信息和时序信息的方法。自然图像里空间维度x轴和y轴两个方向具有相同的可能性,但视频里,并不是所有的时空方向都有相同的可能性,慢动作比快动作的可能性大。因此就不应该对称的看待空间和时间,所以使用了两个分支来分解处理。关于这篇文章的动机,原文写得非常好,机器之心有一篇《快慢效果结合好》的推文阐述得很详细了,我就不在此赘述。而直接进入技术细节。
模型架构
网络架构如图所示。图例是一个人在挥手, 原视频里既有相对静止的画面(自始至终挥手的主体是人,场景是室内的沙发),也有快速的动作(挥手)。类别(“人”这个类别,“沙发”这个类别)的空间语义变化很缓慢,类别的识别是“慢速”刷新的;而执行的动作(挥手)速度比其主体识别的速度要快得多。这样快速变化的动作需要“快速”刷新。