摘要
视频流的爆炸式增长给视频理解的高准确性和低计算成本带来了挑战。传统的2D CNN在计算上很便宜,但不能捕捉时间关系;基于3D CNN的方法可以获得良好的性能,但计算量大,部署成本高。在本文中,我们提出了一种兼具高效率和高性能的时态移位模块(TSM)。具体来说,它既能达到3D CNN的性能,又能保持2D CNN的计算复杂性。TSM沿着时间维度移动部分channel,从而方便相邻帧之间的信息交换。其可以插入2D CNN中,实现零计算、零参数的时间建模。我们还将TSM扩展到在线设置,实现实时低延迟在线视频识别和视频对象检测。TSM精准高效:发布后在something-something排行榜上排名第一;在Jetson Nano和Galaxy Note8上,在线视频识别的延时分别低至13ms和35ms。
介绍
motivation:视频内容产生量巨大,对视频处理的效率提出了很高的要求。2D CNN可以实现高效处理,但性能不佳,没用上temporal维度的信息;3D CNN能充分利用时间维度信息,但效率低下。
解决:本文提出的时间维度移位方法,将channel在temporal维度上移位,使得时间信息和空间信息混合起来,进而使用2D CNN处理就能涵盖时间信息。使用双向TSM处理离线视频,单向TSM处理实时视频。
相关工作
传统:2D CNN, 3D CNN,折中方案
亮点:使用LSTM来聚合2D CNN的特征,实现时间信息的获取
相似:基于移位的方法,存在的问题:直接使用移位操作没有明显效果,既不高效又不准确。