本文也发表在:
知乎专栏
作为深度学习还未完全攻克的领域,越来越的研究者开始将目光投向视频。而Action Recognition,或者说Video Classification,作为最基本的问题,等同于图像分类。而目前深度学习方面最具代表性的方法之一,就是港中文在ECCV2016提出的Temporal Segment Networks(TSN),这也是目前的benchmark。
Website:
Temporal Segment Networks - TSN
之前的模型有哪些问题?
1.
主流的CNN模型聚焦在appearance和 short-term motion,缺少学习长序列的能力。已提出的解决办法有dense temporal sampling,但是这种方法计算量很大,无法应用到大于预定length的长视频之中。
2.