目标检测:
- DPM:可以看做是HOG+SVM的扩展,很好的继承了两者的优点;
缺点:
- 基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余
- 手动设计特征,不具有多样性
- Overfeat:把图像分类、定位、检测三个任务整合到一个框架中。Overfeat是一个特征提取器。
需要大量已标记样本,定位和分类通常针对于大型对象(数据共享),检测需要额外数据
- r-cnn:采用ss算法进行候选框提取,然后缩放成国定比例,归一化在输入cnn提取特征,对于每个候选框 提取的cnn特征
再用svm分类处理,线性回归微调边框,然后每个类需要单独训练边框回归器
问题:通过候选框 提取2000个左右候选框,需要cnn操作,计算量大,存在很多重复计算,而且需要分开单独训练
- SPP-net 特征提取不再需要每个候选区域都经过CNN,只需要将整张图片输入到CNN就可以了,ROI特征直接从特征图获取。
缺点: SPP-NET在微调网络时固定了卷积层,只对全连接层进行微调
- Fast R-CNN:特征提取月spp-net 类似,对整张图片做一次cnn特征提取,用softmax代替了svm分类,利用多任务损失函数将边框回归和分类一起进行。
问题: 候选框提取用的ss方法,时间太长
- Faster R-CNN:Fast R-CNN+RPN,RPN网络 用共享卷积输出特征图,用每个anchor box区域进行二分类,并进行回归得分,然后对得分区域做nms,最后前300个作为候选区域;RPN的网络和Fast R-CNN网络实现卷积层的权值共享
R-FCN 在Faster R-CNN基础上,共享卷积的层数更多了,提高速度。
- YOLO YOLO没有显示地求取region proposal的过程,而yolo则直接将7x7这49个区域作为候选区域。将物体检测作为一个回归问题进行求解,输入图像经过一次inference(推理),便能得到图像中所有物体的位置和其所属类别及相应的置信概率。
缺点: 检测物体准确率低
- SSD 在YOLO基础上 增加了多尺度feature map,用不同的卷积核构造不同尺度的feature map,完成物体分类和检测
准确率和速度都高于Faster R-CNN
文本检测识别:
- FCN 对图像进行像素级的分类,从而解决了语义级别的图像分割(semantic segmentation)问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax输出)不同,FCN 可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样,它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。
- Single Shot Text Detector with Regional Atterntion
提出an atterntion mechanism,也就是an automatically learned attention map,从而实现抑制背景干扰
Inception模块 把多个不同尺寸的卷积结果串接(concat)起来。
原理:利用文字的像素级别的binary mask
从卷积特征中学习文字的空间区域信息
将文字特征封装回卷积层,实现特征增强
- Detecting oriented text in natural images by linking segments
SegLink模型
检测word或者text 的两部分(小文字块segment 和 link ),然后结合它们。
一个 segment 是一个覆盖一个word一部分的有方向的box(对于多个词组成的text line同样适用)
一个link 是连接一对segments,表明它们属于同一个word
这种方案方便于识别长度变化范围很大的、带方向的单词和文本行,它不会象Faster-RCNN等方案因为候选框长宽比例原因检测不出长文本行。
同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。换句话说,位置邻近、并且尺寸接近的文字块都有可能被预测到同一单词中。
- PixelLink: detecting scene text via instance segmentation
PixelLink模型
直接从实例分割结果中提取文本框的位置,而不是从边界框坐标回归中获得
通过FCN网络,借助CNN执行两个像素级预测:一个文本二分类预测,一个链接二分类预测,然后 用正链接去连接邻居正文 本像素,得到文字块实例分割结果。
- Multi-oriented scene text detection via corner localization and region segmentation
基于角点定位和区域分割的多方向场景文本检测
定位文本边界框的角点和分割文本区域的相对位置来检测场景文本
- TextBoxes: a fast text detector with a single deep neural network
TextBoxes模型
对ssd修改,增加default boxes,适应文字长度比较长,宽比较短的特性;增加了Multi-scale的输入