Revisiting Temporal Modeling for Video-based Person ReID
图1:基于图像级特征提取器(通常是2dcnn)的三种时态建模架构(A: temporal pooling,B: RNN, C: temporal attention)。
对于RNN,使用最终隐藏状态或单元输出的平均值作为剪辑级表示;
对于时间注意,给出了两种类型的注意产生网络:“spatial conv + FC [12]” and “spatial conv + temporal conv"