SPPNet学习

最新推荐文章于 2024-08-03 23:18:44 发布

中心木木哟

最新推荐文章于 2024-08-03 23:18:44 发布

阅读量100

点赞数

分类专栏：计算机视觉文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhamhzl/article/details/120875568

版权

计算机视觉专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文地址：https://arxiv.org/pdf/1406.4729.pdf

论文目的：
所有的神经网络都是需要输入固定尺寸的图片，比如224224（ImageNet）、3232(LenNet)、96*96等。这样对于我们希望检测各种大小的图片的时候，需要经过crop，或者warp等一系列操作，这都在一定程度上导致图片信息的丢失和变形，限制了识别精确度。

上图为传统卷积与SPPnet网络结构

输入图片尺寸固定原因：
卷积层的参数和输入大小无关，它仅仅是一个卷积核在图像上滑动，不管输入图像多大都没关系，只是对不同大小的图片卷积出不同大小的特征图，但是全连接层的参数就和输入图像大小有关，因为它要把输入的所有像素点连接起来,需要指定输入层神经元个数和输出层神经元个数，所以需要规定输入的feature的大小。

方法研究：Spatial Pyramid Pooling（空间金字塔池化）
流程图
上图为整个网络结构，分为卷积块，SPPnet结构，全连接（fc6,fc7）

整个网络结构解析：卷积层输入的任意大小的图片，所以Conv5计算出的feature map也是任意大小的，现在经过SPP之后，就可以变成固定大小的输出了，以上图为例，一共可以输出（16+4+1）*256的特征，16+4+1表示空间盒的数量（Spatial bins），256则表示卷积核的数量（Conv5的channel 数）。

中心木木哟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SPPNet学习

SPPNet论文目的：所有的神经网络都是需要输入固定尺寸的图片，比如224224（ImageNet）、3232(LenNet)、96*96等。这样对于我们希望检测各种大小的图片的时候，需要经过crop，或者warp等一系列操作，这都在一定程度上导致图片信息的丢失和变形，限制了识别精确度。输入图片尺寸固定原因：卷积层的参数和输入大小无关，它仅仅是一个卷积核在图像上滑动，不管输入图像多大都没关系，只是对不同大小的图片卷积出不同大小的特征图，但是全连接层的参数就和输入图像大小有关，因为它要把输入的所有像
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。