OverFeat Integrated Recognition, Localization and Detection using Convolutional Networks

最新推荐文章于 2021-03-11 10:58:09 发布

ifenghao

最新推荐文章于 2021-03-11 10:58:09 发布

阅读量701

点赞数

分类专栏：论文笔记文章标签： overfeat

本文链接：https://blog.csdn.net/zhufenghao/article/details/52527306

版权

7 篇文章 0 订阅

订阅专栏

注意： 训练过程中输出是没有空间性的（输出特征图1 $\times$ 1），但是预测过程中是有空间性的。在空间性上全连接层可以看作1 $\times$ 1卷积层。

操作流程的1维展示

对于一个固定尺度的图像的水平翻转也做同样的操作。再对多个尺度的图像（本文一共有6个）进行操作，最终分类结果为：分别取一个类别中尺度和翻转结果中最大值（平均值）作为该类别的预测分数。

卷积网络具有内在的移动窗口模式
训练时保持全连接层不变，而在测试时将网络全连接层转化为1 $\times$ 1的卷积层得到一个全卷积网络，如果输入更大的图片，就可以将输出1 $\times$ 1的点扩展为一张类别预测图，该图中每一个点对应于输入的一个窗口。因为在测试时所有的层都是卷积层，那么网络就只有一系列的卷积、池化和阈值操作了。

移动窗口

将训练好的分类网络最后3层分类器替代为一个回归网络，训练它来预测物体每个位置和尺度的边界框，然后结合每个位置的回归结果和分类结果。

生成物体边界框的预测
在所有位置和尺度上同时训练共享卷积层的分类器和回归器（在训练好卷积层和分类器之后，只需要重新计算回归器）。每个位置上对某个类别的分类概率都是这个类别的物体在该位置上出现（不是完全包含）的置信分数。我们可以把每个边界边框都赋予一个置信分数。回归网络使用预测与实际边界的 $L_2$ 损失，回归输出是与类别有关的（有1000个版本，对每个类别都有一个回归结果）。
回归训练
回归网络的输入是第五层池化后的特征图，前两层为4096和1024个神经元，输出有4个神经元确定边界框的边界坐标。假设对于9个偏移情况中任意一个第五层池化后的特征图为256个6 $\times$ 7，第一层输入大小为5 $\times$ 5，卷积得到第一层4096个2 $\times$ 3，第二层则是全连接的，结果为1024个2 $\times$ 3，输出为4个2 $\times$ 3。