人群计数的第一个开源框架,基于pytorch实现。
框架中提供了六种主流的数据集预处理方案,分别是UCF CC 50 , World-Expo’10 , SHT A , SHT B , UCF-QNRF ,and GCC。
框架对于输入图片的尺寸,会限制其高度和宽度,使其能被16整除,以确保一些下采样层可以输出想要的尺寸。
对于bitch size的大小,有预训练模型的会固定一个值,没有的就用多个值。顾及到数据集中的不同尺寸的图片,框架采用N(bitch size) * 3 * min(h) * min(w)作为输入张量的大小。
对于标签的两种操作:
- ground truth scale down-sampling
- label normalization(to 100).
提供了三种预训练模型:AlexNet,VGG,ResNet. 并针对每一个都做了一些修改。
文中复现了4个模型:MCNN, CMTL,CSRNet,SANet.
这是作者大佬的自述(“自述”这个词貌似用得不太对):https://zhuanlan.zhihu.com/p/65650998