搬运自我的知乎专栏:https://zhuanlan.zhihu.com/wzmsltw 。欢迎大家关注。
最近ICCV 2017公布了论文录用的情况,我照例扫了一遍论文列表寻找感兴趣的文章。“What
Actions are Needed for Understanding Human Actions in Videos?”[arXiv 链接] 一文是我觉得很有趣的一篇文章。这篇论文并没有提出或改进任何方法,而是通过各种小实验,对目前视频行为理解的各种数据库和方法进行了细致的讨论和思考。其中许多观点和结论我觉得对于做视频行为理解的研究人员是有不少启发的。这篇笔记里我简单的进行一些记录,供自己和大家参考。感兴趣的话还是推荐阅读论文原文,从论文写作角度来看这是一篇写的非常好的论文。
背景介绍
该文主要对视频行为理解中的行为分类( Action Recognition) 和时序行为检测( Temporal
Action Detection) 两个问题进行了讨论,这两个领域及相关工作的具体介绍可见我之前的文章行为识别介绍,时序行为检测介绍。简单来说,行为分类是要给一段分割好的短视频(通常只包含一段人类动作)进行动作种类的分类,而时序行为检测则主要针对较长的未分割视频,除了要对视频中人类行为的种类进行分类外,还需要定位动作的时序边界。在这两个方向中,该文则更注重对行为分类问题的讨论。
深度学习(或者说数据驱动的方法)在各个领域的发展离不开各个领域中数据库的发展,视频行为理解领域亦然。从最早的非常简单的KTH数据库,到包含各类运动,简单日常行为的UCF101, THUMOS, HMDB-51等数据库,再到这两年类别数量更大,视频数目也更多的ActivityNet, Charades等数据库,数据库的发展也一步一步推动着视频行为理解方法的发展。本文主要针对Charades数据库进行了分析,原因大概是因为该数据库就是本文作者提出的。实际中,这两年相关的论文在Charades数据库上进行实验的似乎并不多见。