- DAPs:Deep Action Proposals for Action Understanding
提出的目的:加快action proposal的速度,同时提高准确率
与之前方法的比较:由于action segments的长度不同,在之前的方法中需要设置不同的滑动窗口在多次扫描整个视频,在使用极大似然的方法找到最合适的segment,这种方法运行速度很慢。而DAPs只使用了一个滑窗就可以得到不同尺度的proposal,只对视频处理一遍。
方法:对于输入的整个视频先使用C3D网络来提取视频特征,在输入到LSTM网络来把这些特征串联起来,隐藏层h作为这个时间的特征,在使用滑动窗口来扫描整个特征序列,得到预测的action segment并且对每个segment打分。使用anchor机制,anchor的尺度使用K-means聚类来对实际的action segments处理,得到k种尺度的anchor,在得到不同尺度的segment。
缺点:生成的提议通常在时间边界上不够精确和灵活,无法覆盖不同持续时间的实际行动实例
2.SST: Single-Stream Temporal Action Proposals
提出的目的:在要求高的准确率和速度的基础上,加上了在尽量少的proposal上得到更准确的action segments。
与DAPs方法的比较:DAPs虽然可以使用一个滑动窗口得到不同尺度的segment,但是对每帧进行多次处理,找到最合适的尺度。SST方法可以只对每帧进行一次处理。
方法:对于输入的整个视频先使用C3D网络来提取视频特征,在输入到GRU网络来把这些特征串联起来(GRU比LSTM有更少的参数,因此速度更快),在提取proposal的过程中,对每个时间节点t,以计算以t为终点对多个尺度的区间置信度c,在使用阈值和非极大值抑制的方法找到最终的proposal。
缺点:生成的提议通常在时间边界上不够精确和灵活,无法覆盖不同持续时间的实际行动实例
3.TURN TAP: Temporal Unit Regression Network for Temporal