目标检测一步步发展史

最新推荐文章于 2024-02-01 10:44:24 发布

zx_good_night

最新推荐文章于 2024-02-01 10:44:24 发布

阅读量370

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/zx_good_night/article/details/88795129

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目标检测：

DPM：可以看做是HOG+SVM的扩展，很好的继承了两者的优点；

缺点：

基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余
手动设计特征，不具有多样性

Overfeat：把图像分类、定位、检测三个任务整合到一个框架中。Overfeat是一个特征提取器。

需要大量已标记样本，定位和分类通常针对于大型对象（数据共享），检测需要额外数据

r-cnn：采用ss算法进行候选框提取，然后缩放成国定比例，归一化在输入cnn提取特征，对于每个候选框提取的cnn特征

再用svm分类处理，线性回归微调边框，然后每个类需要单独训练边框回归器

问题：通过候选框提取2000个左右候选框，需要cnn操作，计算量大，存在很多重复计算，而且需要分开单独训练

SPP-net 特征提取不再需要每个候选区域都经过CNN，只需要将整张图片输入到CNN就可以了，ROI特征直接从特征图获取。

缺点： SPP-NET在微调网络时固定了卷积层，只对全连接层进行微调

Fast R-CNN：特征提取月spp-net 类似，对整张图片做一次cnn特征提取，用softmax代替了svm分类，利用多任务损失函数将边框回归和分类一起进行。

问题：候选框提取用的ss方法，时间太长

Faster R-CNN：Fast R-CNN+RPN,RPN网络用共享卷积输出特征图，用每个anchor box区域进行二分类，并进行回归得分，然后对得分区域做nms，最后前300个作为候选区域；RPN的网络和Fast R-CNN网络实现卷积层的权值共享

R-FCN 在Faster R-CNN基础上，共享卷积的层数更多了，提高速度。

YOLO YOLO没有显示地求取region proposal的过程，而yolo则直接将7x7这49个区域作为候选区域。将物体检测作为一个回归问题进行求解，输入图像经过一次inference（推理），便能得到图像中所有物体的位置和其所属类别及相应的置信概率。

缺点：检测物体准确率低

SSD 在YOLO基础上增加了多尺度feature map，用不同的卷积核构造不同尺度的feature map，完成物体分类和检测

准确率和速度都高于Faster R-CNN

文本检测识别：

FCN 对图像进行像素级的分类，从而解决了语义级别的图像分割（semantic segmentation）问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类（全联接层＋softmax输出）不同，FCN 可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的feature map进行上采样,它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。

Single Shot Text Detector with Regional Atterntion

提出an atterntion mechanism，也就是an automatically learned attention map，从而实现抑制背景干扰
Inception模块把多个不同尺寸的卷积结果串接（concat）起来。
原理：利用文字的像素级别的binary mask
从卷积特征中学习文字的空间区域信息
将文字特征封装回卷积层，实现特征增强