目标检测一步步发展史

目标检测:

  • DPM:可以看做是HOG+SVM的扩展,很好的继承了两者的优点;

   缺点:

  1. 基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余
  2.  手动设计特征,不具有多样性

 

  • Overfeat:把图像分类、定位、检测三个任务整合到一个框架中。Overfeat是一个特征提取器。

需要大量已标记样本,定位和分类通常针对于大型对象(数据共享),检测需要额外数据

 

  • r-cnn:采用ss算法进行候选框提取,然后缩放成国定比例,归一化在输入cnn提取特征,对于每个候选框 提取的cnn特征

         再用svm分类处理,线性回归微调边框,然后每个类需要单独训练边框回归器

问题:通过候选框 提取2000个左右候选框,需要cnn操作,计算量大,存在很多重复计算,而且需要分开单独训练

 

  • SPP-net  特征提取不再需要每个候选区域都经过CNN,只需要将整张图片输入到CNN就可以了,ROI特征直接从特征图获取。

     缺点: SPP-NET在微调网络时固定了卷积层,只对全连接层进行微调

 

 

  • Fast R-CNN:特征提取月spp-net 类似,对整张图片做一次cnn特征提取,用softmax代替了svm分类,利用多任务损失函数将边框回归和分类一起进行。

         问题: 候选框提取用的ss方法,时间太长

 

  • Faster R-CNN:Fast R-CNN+RPN,RPN网络 用共享卷积输出特征图,用每个anchor box区域进行二分类,并进行回归得分,然后对得分区域做nms,最后前300个作为候选区域;RPN的网络和Fast R-CNN网络实现卷积层的权值共享

        R-FCN  在Faster R-CNN基础上,共享卷积的层数更多了,提高速度。

 

 

  • YOLO   YOLO没有显示地求取region proposal的过程,而yolo则直接将7x7这49个区域作为候选区域。将物体检测作为一个回归问题进行求解,输入图像经过一次inference(推理),便能得到图像中所有物体的位置和其所属类别及相应的置信概率。

         缺点: 检测物体准确率低

 

  • SSD  在YOLO基础上 增加了多尺度feature map,用不同的卷积核构造不同尺度的feature map,完成物体分类和检测

        准确率和速度都高于Faster R-CNN

 

文本检测识别:

  • FCN    对图像进行像素级的分类,从而解决了语义级别的图像分割(semantic segmentation)问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax输出)不同,FCN 可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样,它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。

 

  • Single Shot Text Detector with Regional Atterntion

     提出an atterntion mechanism,也就是an automatically learned attention map,从而实现抑制背景干扰
    Inception模块    把多个不同尺寸的卷积结果串接(concat)起来。
    原理:利用文字的像素级别的binary mask
               从卷积特征中学习文字的空间区域信息
               将文字特征封装回卷积层,实现特征增强

 

  • Detecting oriented text in natural images by linking segments

    SegLink模型
    检测word或者text 的两部分(小文字块segment 和 link ),然后结合它们。
   一个 segment 是一个覆盖一个word一部分的有方向的box(对于多个词组成的text line同样适用) 
     一个link 是连接一对segments,表明它们属于同一个word

    这种方案方便于识别长度变化范围很大的、带方向的单词和文本行,它不会象Faster-RCNN等方案因为候选框长宽比例原因检测不出长文本行。
   同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。换句话说,位置邻近、并且尺寸接近的文字块都有可能被预测到同一单词中。

 

  • PixelLink: detecting scene text via instance segmentation

     PixelLink模型
     直接从实例分割结果中提取文本框的位置,而不是从边界框坐标回归中获得
     通过FCN网络,借助CNN执行两个像素级预测:一个文本二分类预测,一个链接二分类预测,然后 用正链接去连接邻居正文       本像素,得到文字块实例分割结果。

 

  • Multi-oriented scene text detection via corner localization and region segmentation

     基于角点定位和区域分割的多方向场景文本检测
    定位文本边界框的角点和分割文本区域的相对位置来检测场景文本

 

  • TextBoxes: a fast text detector with a single deep neural network

     TextBoxes模型
    对ssd修改,增加default boxes,适应文字长度比较长,宽比较短的特性;增加了Multi-scale的输入 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值