SlowFast 论文关键点解读

本文解析了何凯明团队提出的SlowFast Networks,一种处理视频识别中空间和时间信息的方法。该模型包含慢通道和快通道,分别处理空间语义和时序信息。慢通道用低帧率捕获静态信息,快通道用高帧率捕捉动作。通过侧向连接融合两者信息,实验表明这种设计能有效提高识别准确率。
摘要由CSDN通过智能技术生成

原论文SlowFast Networks for Video Recognition

这篇工作是何凯明团队在2019年提出的分开处理空间信息和时序信息的方法。自然图像里空间维度x轴和y轴两个方向具有相同的可能性,但视频里,并不是所有的时空方向都有相同的可能性,慢动作比快动作的可能性大。因此就不应该对称的看待空间和时间,所以使用了两个分支来分解处理。关于这篇文章的动机,原文写得非常好,机器之心有一篇《快慢效果结合好》的推文阐述得很详细了,我就不在此赘述。而直接进入技术细节。

模型架构

网络架构如图所示。图例是一个人在挥手, 原视频里既有相对静止的画面(自始至终挥手的主体是人,场景是室内的沙发),也有快速的动作(挥手)。类别(“人”这个类别,“沙发”这个类别)的空间语义变化很缓慢,类别的识别是“慢速”刷新的;而执行的动作(挥手)速度比其主体识别的速度要快得多。这样快速变化的动作需要“快速”刷新。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值