CNN(卷积神经网络)步骤:
- 图片输入
- 将图片分成多个区域:
- 将每个区域看作单独的图片。
- 把这些区域照片传递给CNN,将它们分到不同类别中。
- 当把每个区域都分到对应的类别后,再把它们结合在一起,完成对原始图像的目标检测
R-CNN(基于区域的卷积神经网络),检测目标物体的步骤如下:
- 首先取一个预训练卷积神经网络。
- 根据需要检测的目标类别数量,训练网络的最后一层。(选择性搜索得到感兴趣区域)
- 得到每张图片的感兴趣区域(Region of Interest),对这些区域重新改造,以让其符合CNN的输入尺寸要求。
- 得到这些区域后,我们训练支持向量机(SVM)来辨别目标物体和背景。对每个类别,我们都要训练一个二元SVM。
- 最后,我们训练一个线性回归模型,为每个辨识到的物体生成更精确的边界框。
fast R-CNN:
- 输入图片。
- 输入到卷积网络中,它生成感兴趣区域。(选择性搜索)
- 利用Rol池化层对这些区域重新调整,将其输入到完全连接网络中。
- 在网络的顶层用softmax层输出类别。同样使用一个线性回归层,输出相对应的边界框。
Faster RCNN工作的大致过程:
- 输入图像到卷积网络中,生成该图像的特征映射
- 在特征映射上应用Region Proposal Network(RPN 区域生成网络),返回object proposals和相应分数。
- 应用Rol池化层,将所有proposals修正到同样尺寸。
- 最后,将proposals传递到完全连接层,生成目标物体的边界框。
他们之间的区别:
原文链接:
https://zhuanlan.zhihu.com/p/46963225
也可以参考下面的文章,感觉还是写得很好的:
https://blog.csdn.net/weixin_43198141/article/details/90178512