ssd yolo faster-rcnn 的关键点理解

最新推荐文章于 2024-07-22 00:52:46 发布

coding-coder

最新推荐文章于 2024-07-22 00:52:46 发布

阅读量460

点赞数 1

本文链接：https://blog.csdn.net/woyuanzuonideyikeya/article/details/81663445

版权

本文详细探讨了Faster R-CNN中的RPN网络，解释了其工作原理，包括卷积层、全连接层在定位和分类上的作用。同时，对比了YOLOv2的改进，如K-means确定anchor boxes，使用passthrough layer融合特征图。此外，还介绍了SSD的多尺度预测与全连接层的优化。最后，讨论了训练策略中的4-Step Alternating Training，以及过采样和下采样的区别在目标检测中的应用。

摘要由CSDN通过智能技术生成

在Faster RCNN当中，一张大小为224*224的图片经过前面的5个卷积层，输出256张大小为13*13的特征图（你也可以理解为一张13*13*256大小的特征图，256表示通道数）。接下来将其输入到RPN网络，输出可能存在目标的reign WHk个（其中WH是特征图的大小，k是anchor的个数）。

实际上，这个RPN由两部分构成：一个卷积层，一对全连接层分别输出分类结果（cls layer）以及坐标回归结果（reg layer）。卷积层：stride为1，卷积核大小为3*3，输出256张特征图（这一层实际参数为3*3*256*256）。相当于一个sliding window 探索输入特征图的每一个3*3的区域位置。当这个13*13*256特征图输入到RPN网络以后，通过卷积层得到13*13个 256特征图。也就是169个256维的特征向量，每一个对应一个3*3的区域位置，每一个位置提供9个anchor。于是，对于每一个256维的特征，经过一对全连接网络（也可以是1*1的卷积核的卷积网络），一个输出前景还是背景的输出2D；另一个输出回归的坐标信息（x,y,w, h,4*9D，但实际上是一个处理过的坐标位置）。于是，在这9个位置附近求到了一个真实的候选位置。

所有state-of-the-art的检测方法基本上都会使用ImageNet预训练过的模型（classifier）来提取特征，例如AlexNet输入图片会被resize到不足256x256，这导致分辨率不够高，给检测带来困难。所以YOLO(v1)先以分辨率224x224训练分类网络，然后需要增加分辨率到448x

最低0.47元/天解锁文章

coding-coder

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ssd yolo faster-rcnn 的关键点理解

在Faster RCNN当中，一张大小为224*224的图片经过前面的5个卷积层，输出256张大小为13*13的特征图（你也可以理解为一张13*13*256大小的特征图，256表示通道数）。接下来将其输入到RPN网络，输出可能存在目标的reign WHk个（其中WH是特征图的大小，k是anchor的个数）。实际上，这个RPN由两部分构成：一个卷积层，一对全连接层分别输出分类结果（cls la...
复制链接

扫一扫