Snip

xiaochengJF

于 2020-11-08 10:54:55 发布

阅读量214

点赞数

分类专栏：目标检测文章标签：深度学习目标检测计算机视觉卷积神经网络

本文链接：https://blog.csdn.net/weixin_43711554/article/details/105120789

版权

41 篇文章 1 订阅

订阅专栏

如果将object的尺寸除以图像尺寸得到的倍数来排序，如下图：

在这里插入图片描述

由上面分析可知：ImageNet和COCO数据集在object的尺寸分布上差异比较大，而目标检测算法又常用ImageNet数据集的预训练模型提取特征（迁移学习），这可以认为是训练和测试数据不匹配问题，即文中的domain-shift

对于不同尺度目标和小目标问题有不少解决方法提出：

RPN中两种情况下会给anchor分配正标签：

但是在COCO数据集上（800×1200）

只有30%的ground truth满足第一种情况，即便将阈值调整为0.5，也只有58%的ground truth满足第一种情况，这样有大量的正样本质量并不高，多尺度的方法一定程度上缓解了此现象

为缓解domain-shift问题，以及尽可能匹配多个尺度的目标，提出 SNIP 的训练方法：

在这里插入图片描述

CNN-B：采用尺寸为224×224的ImageNet数据集训练的分类模型，验证时先将224×224大小的原始图片缩小到48×48、64×64、80×80、96×96和128×128几个尺度，然后再放大到224×224作为验证数据，以便比较分辨率对检测效果的影响。
CNN-S：训练和验证时的分辨率保持一致，针对48×48和96×96两种分辨率，对模型第一层进行修改，分辨率为48×48时，将7×7卷积核换成3×3，stride为1。分辨率为96×96时，将7×7卷积核换成5×5，stride为2，以便对比训练和验证分辨率一致和不一致时的影响
CNN-B-FT：将CNN-B在放大的低分辨率图像上fine tune后的模型，同时也采用放大的低分辨率图像验证，观察高分辨率图片训练的模型是否能有效提取低分辨率图像的特征

在这里插入图片描述
下图为CNN-B、CNN-S和CNN-B-FT的实验结果：

采用1400×2000大小图片训练，相关实验结果如下表所示：

在这里插入图片描述

关注