Spatiotemporal Modeling for Crowd Counting in Videos
ICCV2017
针对视频人群密度估计问题,这里主要侧重视频中的 temporal information,使用 convolutionalLSTM(ConvLSTM) 的一个变体 a bidirectional ConvLSTM model 来提取当前帧的前后帧信息提升人群密度估计
当前基于回归方法的人群计数取得不错的效果。回归的方法避免了检测的难题。它们将人群计数问题看作一个回归问题,通过学习一个回归函数或映射,将一些整体或局部特征映射到一个人群总数或人群密度图。线性回归、高斯过程回归、神经网络都可以用过回归模型。当前人群计数最好的算法基本都是采用回归方法的。
3 Our Crowd Counting Method
3.1. Crowd density map
这里我们采用估计人群密度图,因为它包含的信息更多一些。
The ground-truth density map 密度真值图可以通过用一个高斯核对人头位置进行卷积得到。业界基本都是这么做的。
3.2. ConvLSTM model 具体参考文献【25】
3.3. From ConvLSTM to bidirectional ConvLSTM
3.4. ConvLSTM-nt: a degenerate variant of ConvLSTM for comparison
4 Experiments
UCSD dataset
Mall dataset
WorldExpo dataset
transfer learning experiments