2019.1.8

一、Rich feature hierarchies for accurate object detection and semantic segmentation Tech report

1、R-CNN(region with cnn)网络架构

三个模块:

第一个模块生成类别独立的区域候选框。这些候选框就定义了检测器能够运用的候选框集合。

第二个模块是从每个候选框提取出固定长度特征向量的卷积神经网络。

(使用ALexnet,通过warped region将候选区域固定大小为227X227,网络输入一张经过归一化的227×227的RGB图像,然后经过5个卷积层和2个全连接层,最后使用AlexNet从每个候选框中提取出4096维的特征向量。)

注:

①pool5:pool5的维度为6X6X256=9216,忽略边缘效应,每个pool5的单元拥有在原有的227×227像素输入上195×195像素的感受野。pool5上位于中央的单元几乎拥有全局视野,而靠近边缘的单元具有更小和不全的视野。pool5层的特征表达:令人惊讶的是,移除fc6和fc7,仅使用pool5特征也能取得很好的结果,这仅仅只需要CNN 6%的参数。这说明CNN的表达能力绝大部分来自于卷积层的特征提取而不是密集的全连接层。这个发现说明在计算任意大小图像的密集特征图时仅使用CNN卷积层就潜在效用。这个特征表达使得滑动窗口检测器可以基于pool5的特征进行实验。)

②fc6:与pool5全连接的。为了计算特征,会在pool5特征图上乘上一个4096×9216的权值矩阵(这里pool5的特征被平铺成一个9216维的向量,即4096X9216 X 9216X1)然后加上一个偏置项。然后这个结果再经过ReLU函数。

③fc7:是网络的最后一层。那么这一层就是对前一层特征乘上一个4096×4096的权值矩阵(即是4096X4096 X 4096X1)再加上一个偏置项,再经过ReLU。

第三个模块是线性SVMs。

论文链接:https://arxiv.org/abs/1311.2524v3

来自:https://blog.csdn.net/mike112223/article/details/79085045

也可参考(对各个步骤讲解非常细致):https://blog.csdn.net/WoPawn/article/details/52133338

ALexnet来自:https://blog.csdn.net/qq_24695385/article/details/80368618

二、生成候选框的方法

生成类别独立候选框的方法。比如:objectness,selective search,category-independent object proposals,constrained parametric min-cuts(CPMC),multi-scale combinatorial grouping。

 Detection Proposal 方法(DETECTION PROPOSAL METHODS)
作者将 Detection Proposal 分为两类,grouping method (将图片分为碎片,最后聚合)和 window scoring method (对分成的大量窗口打分)。

2.1 分组 proposal 方法(Grouping proposal methods)
Grouping proposal methods尝试产生对应于目标的多个区域(可能重叠)。根据它们产生 proposal 的方式可以划分为三类:superpixels (SP),graph cut (GC) 和 edge contours (EC)。

• SelectiveSearch (SP) [15], [29]:通过贪婪地合并超像素来产生 proposals。这个方法没有学习的参数,合并超像素的特征和相似函数是手动设定的。它被 R-CNN 和 Fast R-CNN detectors [8], [16] 等最新的目标检测方法选用。

• RandomizedPrim’s (SP) [26]:使用类似与SelectiveSearch 的特征,但是使用了一个随机的超像素合并过程来学习所有的可能(probabilities)。此外,速度有了极大地提升。

• Rantalankila (SP) [27]:使用类似与SelectiveSearch 的策略,但使用了不同的特征。在后续阶段,产生的区域用作求解图切割的种子点(seeds )(类似于CPMC)。

• Chang (SP) [38]:结合 saliency 和 Objectness 在一个图模型中来合并超像素实现前景/背景(figure/background)分割。

• CPMC (GC) [13],[19]:避免初始的分割,使用几个不同的种子点(seeds )和位元(unaries )对像素直接进行图切割。生成的区域使用一个大的特征池来排序。

• Endres (GC) [14], [21]:从遮挡的边界建立一个分层(hierarchical )的分割,并且使用不同的种子点和参数来切割图产生区域。产生的 使用大量的线索和鼓励多样性的角度排序。

• Rigor (GC) [28]:是 CPMC 的一个改进,使用多个图切割和快速的边缘检测子来加快计算速度。

• Geodesic (EC) [22]:首先使用 [36] 对图片过分割。分类器用来为一个测地距离变换标定种子点。每个距离转换的水平集(Level sets)定义了(figure/ground)的分割。

• MCG (EC) [23]:基于 [36], 提出一个快速的用于计算多尺度(multi-scale)层次分割进程。使用边缘强度来合并区域,生成的目标假设(object hypotheses )使用类似于尺度,位置,形状和边缘强度的线索来排序。

2.2 窗口评分的 proposal 方法(Window scoring proposal methods)
Window scoring proposal methods 通过对每个候选的窗口根据它们包含目标的概率来打分来产生 proposals 。与 grouping approaches 比,这些方法值返回边界框(bounding boxes),因此速度更快。但是,除非它们的窗口采样密度很高,否则这些方法位置精度很低。

• Objectness [12], [24]:最为最早和最广泛的一种 proposal 方法。它通过选择一副图片中的显著性位置作为 proposal,接着通过颜色,边缘,位置,尺寸,和 superpixel straddling 等多个线索对这些 proposal 打分。

• Rahtu [25]:以 一个包含采样区域(单个,两个和三个超像素)和 多个随机采样的框的大的 proposal 池作为开始。采用类似于 Objectness 的打分策略,但是有些提高 ([40]添加了额外的 low-level features 和 强调了恰当调优的非最大抑制(properly tuned nonmaximum suppression)的重要性)。

• Bing† [18]:通过边缘训练一个简单的线性分类器,并且以一个滑动窗口的方式运行。使用充足的近似,获得一个非常快的类未知的检测子 (CUP中每帧 1ms)。CrackingBing [41]表明一个有很小影响和类似性能的分类器可以通过不用查看图片的方式来获得 (分类性能不是来自于学习而是几何学)。

• EdgeBoxes† EC [20] :基于目标边界估计(通过 structured decision forests [36], [42]获得)形成一个粗糙的滑动窗口模式作为开始,使用一个后续的 refinement 步骤来提高位置精度。不学习参数。作者提出通过调节滑动窗口模式的密度和和非最大抑制的阈值来调优方法用于不同的重叠阈值。

• Feng [43] :通过搜索显著性图片内容来找到 proposal ,提出了一种新的显著性度量,包括一个潜在的目标能被图片的剩余部分组成。它采用滑动窗口模式,并通过显著性线索对每个位置打分。

• Zhang [44] :提出在简单的梯度特征上训练一个级联的排序 SVMs。第一阶段对不同的尺度和长宽比(aspect ratio)训练不同的分类器;第二阶段对所有获得的proposals 排序。所有的 SVMs 使用结构性的输出,对含有更多目标重叠的窗口打分更高。因为级联在同样的类别上训练和测试,因此不太清楚它的泛化能力。

• RandomizedSeeds [45] :使用多个随机的 SEED 超像素映射图 对每个候选窗口打分。打分策略类似于 Objectness 的 superpixel straddling (没有额外添加的信息)。作者展示使用多个超像素映射(superpixel maps )可以明显地提高召回率。

2.3 其他 proposal 方法(Alternative proposal methods)
• ShapeSharing [47] :是一个无参的数据驱动的方法,通过匹配边转换目标形状从范例(exemplars)到测试图片。生成的区域使用图切割合并和提纯。

• Multibox [9], [48] :训练一个神经网络来直接回归一定数量的 proposals (不需要在图片上滑动网络)。每个 proposals 都有它自己的位置误差 。该方法在 ImageNet 表现出最好的结果。
--------------------- 
作者:mingo_敏 
来源:CSDN 
原文:https://blog.csdn.net/shanglianlm/article/details/46786303 

detection proposal 综述:https://blog.csdn.net/shanglianlm/article/details/46786303

三、选择搜索selective search

原图

在这里插入图片描述

首先:选择性搜索算法使用《Efficient Graph-Based Image Segmentation》论文里的方法产生初始的分割区域作为输入

在这里插入图片描述

通过下面的步骤进行合并:

  1. 首先将所有分割区域的外框加到候选区域列表中
  2. 基于相似度合并一些区域(其中的相似度主要是通过以下四个方面:颜色、纹理、大小和形状交叠确定,最终的相似度是这四个值取不同的权重相加。)
  3. 将合并后的分割区域作为一个整体,跳到步骤1

在这里插入图片描述

selective详解:https://blog.csdn.net/m0_37970224/article/details/85238603

 


 

©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页