阅读时间将近四分钟
卷积神经网络在检测图像中的目标时优于其他神经网络架构。不久,研究人员们就改进了CNN以进行目标定位和检测,并称这种架构为R-CNN (Region-CNN)。R-CNN的输出是带有矩形框的图像,其围绕图像中的目标以及该目标的对应类。
以下是R-CNN的实现步骤:
1. 使用选择性搜索算法扫描输入图像以查找可能的目标并生成大约2000个候选区域。
2. 在每个候选区域上运行CNN。
3. 获取每个CNN的输出并将其输入到:
(1) SVM模型中对区域进行分类
(2) 如果存在这样的目标,则使用线性回归器收紧目标的边界框
R-CNN用于目标检测
虽然R-CNN比传统的CNN在目标定位、检测和分类方面取得了很大进步,但实时实现这一点仍然存在问题。一些问题是:
1. 训练数据很难处理,而且耗时很长
2. 训练分两个阶段进行(eg.训练候选区域和分类)
3. 网络模型在使用时耗时较长(处理非训练数据时)
为了改进R-CNN,后续出现Fast-RCNN,Faster-RCNN,Mask-RCNN等