综述:CRAFT 级联区域-提议-网络和快速 r-cnn(目标检测)
更好的对象提议,更准确的对象分类,胜过更快的 R-CNN
在这个故事里,由中科院和清华的工艺进行了回顾。在快速 R-CNN 中,区域提案网络(RPN)用于生成提案。这些建议,在投资回报汇集后,将通过网络进行分类。但是发现更快的 R-CNN 有一个核心问题:
- 在提案生成中,仍然有很大比例的背景区域。许多背景样本的存在导致许多假阳性。
在工艺中,如上图,在 RPN 之后增加了另一个 CNN,使产生更少的提案(即这里的 300 个)。然后,对这 300 个建议进行分类,并输出大约 20 个基元检测结果。对于每个原始结果,使用一对其余分类来执行精细的对象检测。发表在 2016 CVPR 上,引用 50 余次。( Sik-Ho Tsang @中)
概述
- 级联建议生成
- 级联对象分类
- 消融研究
- 结果
1。级联建议生成
1.1.基线 RPN
- 一个理想的建议生成器应该在覆盖几乎所有对象实例的同时生成尽可能少的建议。由于 CNN 池操作导致的分辨率损失和滑动窗口的固定纵横比,RPN 在覆盖具有极端尺度或形状的对象方面较弱。
Recall Rates (%), Overall is 94.87%, Lower than 94.87% is bold in text.
- 以上结果是基于使用 PASCAL VOC 2007 train+val 训练的 VGG_M 的基线 RPN,并在测试集上测试。
- 每个对象类别的召回率差异很大。具有极端纵横比和比例的对象很难被检测到,例如船和瓶子。
1.2.提议的级联结构
The additional classification network after RPN is denoted as FRCN Net here
- RPN 之后的附加分类网络。
- 附加网络是一个 2 类检测网络,在上图中表示为 FRCN 网络。它使用 RPN 的输出作为训练数据。
- 在训练 RPN 网络之后,每个训练图像的 2000 个原始建议被用作 FRCN 网络的训练数据。
- 在训练期间,正负采样分别基于正 0.7 IoU 和负 0.3 IoU 以下。
- 有两个优点:
- 1)首先,附加的 FRCN 网进一步提高了目标提议的质量,缩小了更多的背景区域,使提议更符合任务要求。
- 2)第二,来自多个来源的建议可以合并作为 FRCN 网的输入,以便可以使用互补信息。
2.级联对象分类
2.1.基线[快速 R-CNN](http://Fast R-CNN)
[Fast R-CNN](http://Fast R-CNN) Results (Orange: Train, Red: Boat, Blue: Potted Plant)
- 它在捕捉类别内差异方面很弱,因为“背景”类通常占据训练样本的很大比例**。**
- 如上图所示,误分类错误是最终检测的主要问题。
2.2.提议的级联结构
Cascade Object Classification
- 为了改善由于错误分类导致的太多假阳性的问题,one-vs-rest 分类器被用作每个对象类别的附加两类交叉熵损失,如上所示。
- 每个 one-vs-rest 分类器看到特定于一个特定对象类别的提议(也包含一些假阳性),使其专注于捕获类别内差异。
- 标准 FRCN 网(FRCN-1)首先使用来自级联建议结构的目标建议进行训练。
- 然后,基于 FRCN-1 的输出训练另一个 FRCN 网络(FRCN-2 ),这是原始检测。
- 被分类为“背景”的原始检测被丢弃。
- 使用 N 两类交叉熵损失的总和,其中 N 等于对象类别的数量。
- FRCN-1 和 FRCN-2 的卷积权重是共享的,因此全图像特征图只需计算一次。
- 产生 2 个 N 个分数和 4 个 N 个边界框回归目标的新层从高斯分布初始化。
- 因此,在测试时间,以 300 个目标提议作为输入,FRCN-1 输出大约 20 个原始检测,每个具有 N 原始分数。
- 然后,每个基元检测再次由 FRCN-2 分类,并且输出分数( N 个类别)以逐个类别的方式乘以基元分数( N 个类别),以获得该检测的最终 N 个分数。
3.消融研究
3.1.提案生成
Recall Rates (%)
- 使用在 ILSVRC DET 列车+va1 上预训练的 VGG-19 ,并在 val2 上进行测试。
- 提出的 FRCN ,分别基于 0.7 IoU 以上和 0.3 IoU 以下使用正负抽样,的召回率最高,达到 92.37%,比 RPN 高出 2%以上。
- 使用 300 个建议的 FRCN 优于使用 2000 个建议的选择性搜索。
Recall Rates (%) and mAP (%) on PASCAL VOC 2007 Test Set
- 与自下而上的方法相比,RPN 建议没有很好地本地化(高 IoU 阈值下的低召回率)。
- 使用更大的网络无法帮助(RPN_L),因为它是由固定锚引起的。
- “Ours”保持每个图像的固定数量的建议(与 RPN 相同),而“Ours_S”保持其分数(级联 FRCN 分类器的输出)高于固定阈值的建议。
- 级联建议生成器不仅进一步消除了背景建议,还带来了更好的定位,两者都有助于检测 AP。
3.2.对象分类
mAP (%) on PASCAL VOC 2007 Test Set
- “相同”:表示没有微调。与没有级联分类结构的图相似。这就像运行 FRCN-1 两次,这是一个迭代的包围盒回归。
- “clf”:微调额外的一对其余分类权重。地图提高到 66.3%。
- “fc+clf”:微调最后一个卷积层之后的所有层。mAP 为 68.0%,具有最好的结果。
- “conv+fc+clf”:就像完全训练新的特征表示,学习另一个分类器。
mAP (%) on PASCAL VOC 2007 Test Set
- 如果用 one-vs-rest 代替原来的分类,mAP 变得更差,只有 46.1%。
- 如果使用级联分类,mAP 提高到 68.0%。
4.结果
4.1.PASCAL VOC 2007 和 2012
mAP (%) on PASCAL VOC 2007 and 2012
- FRCN : 快速 R-CNN 。
- RPN_un : 更快的 R-CNN 在提议网络和分类器网络之间具有非共享的 CNN。
- RPN : 更快的 R-CNN 。
- 工艺:带级联建议网络,比 VOC 2007 中的 RPN_un 好但比 RPN 差。使用级联分类器网络,它在 VOC 2007 和 VOC 2012 中都比更快的 R-CNN 。
CRAFT on PASCAL VOC 2007 Test Set
4.2.ILSVRC 目标检测任务
Recall Rate (%) on ILSVRC val2 Set
- 0.6 NMS :更严格的 NMS,比基本版好。
- 重新评分:通过考虑级联结构两个阶段的两个评分,对每个提案重新评分也有帮助。
- +DeepBox :融合 DeepBox 提议,将 RPN 提议作为 FRCN 网的融合输入,使召回率提高到 94%以上。比+SS 要好。
mAP (%) on ILSVRC val2 Set
- 这里使用 GoogLeNet 模型,带批量归一化。
- ILSVRC 2013train + 2014train + val1 用作训练集。
- 使用级联建议网络,实现了 47.0%的 mAP,这已经超过了之前最先进的系统(如 Superpixel Labeling 和 DeepID-Net 的集合结果。
- 还具有级联分类器网络,48.5% mAP ,额外的 1.5%绝对增益。
由于级联网络同时适用于区域建议网络和分类器网络,提高了检测精度。
参考
【2016 CVPR】【工艺】 从图像中工艺物体
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(是)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(好)(的)(情)(情)(况)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】R-FCN】离子多路径网NoC yolo 9000[yolov 3][FPN][retina net][DCN]
语义切分 FCNde convnetdeeplab v1&deeplab v2SegNet】【parse netdilated netPSP netdeeplab v3DRN
生物医学图像分割 cumed vision 1cumed vision 2/DCANU-NetCFS-FCNU-Net+ResNet多通道
实例分段 DeepMask SharpMask MultiPathNet MNC InstanceFCN FCIS 】
)(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。
综述:条件随机场-RNN——作为递归神经网络(语义分割)
一种将 CRF 集成到端到端深度学习解决方案中的方法
在这个故事中, CRF-RNN ,条件随机场作为递归神经网络,由牛津大学,斯坦福大学,百度进行综述。CRF 是计算机视觉中最成功的图形模型之一。发现全卷积网络( FCN )输出的分割结果非常粗糙。因此,许多方法使用 CRF 作为后处理步骤来细化从网络获得的输出语义分割图,例如deeplab v1&deeplab v2,以具有更细粒度的分割结果。但是,CRF 的参数不与 FCN 一起训练。换句话说, FCN 在训练中并不知道慢性肾衰竭。这可能会限制网络能力。
在 CRF-RNN 中,作者提出将 CRF 表述为 RNN,以便与【FCN】集成,以端到端的方式训练整个网络,以获得更好的结果。这是一篇 2015 年 ICCV 论文,引用超过 1300 次。( Sik-Ho Tsang @中)
CRF-RNN 现场演示
作者们还为此制作了一个现场演示:
[http://www.robots.ox.ac.uk/~szheng/crfasrnndemo](http://www.robots.ox.ac.uk/~szheng/crfasrnndemo)
We can try our own image from internet or upload our own
以下是我的试验,这很有趣:
奇迹
Marvel
城市景观数据集
Cityscape Dataset
船和人
Boats & Persons
这是相当准确的,当然,我也尝试了一些 CRF-RNN 不能工作。
概述
- 条件随机场
- CRF 作为 CNN 进行一次迭代
- CRF 为多次迭代的 RNN
- 结果
1。条件随机场
- CRF 的目的是基于每个位置本身的标签以及相邻位置的标签和位置来细化粗略输出。
- 考虑全连通的成对 CRF 。完全连接意味着所有位置都已连接,如上图中间所示。成对意味着连接成对连接。
- 当我们讨论 CRF 时,我们在讨论如何最小化一个能量函数。这里,我们需要最小化标签分配的能量。我只是把能量当作一种成本函数。通过将最可能的标签分配给每个位置,我们可以获得更低的能量,即更低的成本,从而获得更高的精度。
- CRF 的特征在于以下形式的吉布斯分布:
- 其中 I 是输入。 Xi 是位置 i 处的随机变量,代表分配的标签。 I 为简单起见被丢弃。 E ( x )是能量函数, Z ( I )是配分函数,就是所有 exp(- E ( x )的和。
- 这个 CRF 分布 P ( X )近似为 Q ( X ),是独立齐 ( Xi )的乘积:
- 在论文中,作者提到他们遵循[29]。(如有兴趣,请访问[29]。这是 2011 年 NIPS 的一篇论文,名为“在具有高斯边缘势的全连接 CRF 中的有效推断”。)能量函数:
- 第一项,一元能量ψu(Xi)😗*如果标签分配与初始分类器不一致,则测量成本。**一元表示每次只考虑单个位置的标签。
- 第二项,成对能量ψp(Xi, xj ):如果两个相似像素(例如相邻像素或具有相似颜色的像素)采用不同的标签,则测量成本:
- 其中 kG 是应用于特征向量的 高斯核。特征向量可以是空间位置和 RGB 值,例如高斯滤波器和双边滤波器。
- 并且 μ是标签兼容性函数,其在标签不同时分配惩罚。
End-to-end Trainable CRF-RNN
- CRF 是一种非常强大的统计建模方法,应用于各种模式识别任务,如文本序列分类。我只能以非常简要的方式介绍本文中提到的通用报告格式。
- 简而言之,输入图像将通过 FCN 然后是 CRF。该 CRF 将考虑一元能量项和成对能量项,然后输出更精确的分割图。
- 这个 CRF 是作为 CNN 的一个栈实现的,如下所示。
2。 CRF 作为 CNN 进行一次迭代
初始化
信息传递
- 使用 M 个高斯滤波器。
- 在[29]之后,使用两个高斯核,一个空间核和一个双边核。
加权滤波器输出
- 对于每个类别标签 l ,上一步的 M 滤波器输出的加权和。
- 当每个标签被单独考虑时,它可以被视为具有 M 个输入通道和一个输出通道的 1×1 卷积。
- 与[29]相反,每个类标签使用单独的核权重。
兼容性转换
- 当分配不同的标签时,会分配一个罚分。
- 例如:将标签“人”和“自行车”分配给附近的像素应该具有比分配标签“天空”和“自行车”更小的惩罚。
- 这样, μ ( l ,l’)从数据中学习。
添加一元位势
- 兼容性转换步骤的输出是从一元输入U中按元素减去**。**
正常化
- 另一个 softmax 操作。
Fully connected CRFs as a CNN for one mean-field iteration
- 以上是一次平均场迭代的概述。
- 通过重复上述模块,我们可以进行多次平均场迭代。
3。将 CRF 作为多次迭代的 RNN
CRF as RNN for Multiple Iterations
- 我就是形象。 U 是来自 FCN 的一元电位。 T 为总迭代次数。
- fθ(U,H 1( t ), I )是上一节所述的平均场迭代,其中 θ 是上一节所述的 CRF 参数,即 w , μ , m ,
- 在 t = 0 时,第一次迭代,H1(t)= soft max(U),否则 H 1( t )是前一次平均场迭代的输出,H2(t-1)。
- H2(t)是平均场迭代 fθ(U,H1(t)I)的输出。
- 最终输出,Y(T)=H2(T)当 t = T 时,即最后一次迭代结束时。
- 使用递归神经网络(RNN) 设置,即这里的参数在所有迭代中共享。
- 在训练时, T =5 用于避免消失/爆炸渐变问题。
- 在测试期间, T =10 。
4.结果
4.1.帕斯卡 VOC
Mean IU Accuracy on PASCAL VOC 2012 Validation Set
- 有/没有 COCO:模特是否也由 COCO 训练。
- 平原 FCN-8s :平均 IU 精度最低。
- 带 CRF 但断开:这意味着 CRF 不用 FCN 以端到端的方式训练,获得更高的平均 IU 精度
- 端到端 CRF-RNN :获得了最高的平均 IU 精度,这意味着端到端 FCN +CRF 是最佳解决方案。
Mean IU Accuracy on PASCAL VOC 2010, 2011, 2012 Test Set
- CRF-RNN w/o COCO :性能优于 FCN-8s 和 DeepLab-v1 。
- 有 COCO 的 CRF-RNN:效果更好。
4.2.PASCAL 上下文
Mean IU Accuracy on PASCAL Context Validation Set
- CRF-RNN :比 FCN-8s 更高的平均 IU 精度。
4.3.进一步分析
- 在 PASCAL VOC 2012 验证集上进行附加实验。
- 对不同等级使用不同的权重 w 会增加 1.8%的平均 IU。
- 在训练和测试期间,T =10 导致 0.7%的下降,这表明存在消失梯度效应。
- 每次迭代的独立参数而不是共享参数,仅获得 70.9%的平均 IU 准确度,这表明递归结构是重要的。
4.4.定性结果
Some Good Results on PASCAL VOC 2012
Comparison with State-of-the-art Approaches
虽然 CRF-RNN 是在 2015 年发表的,但这篇论文向我介绍了一个重要的概念/逻辑,即把一个传统的/非深度学习的方法转换/近似为基于深度学习的方法,并把它变成一个端到端的解决方案。
参考
【2015 ICCV】【CRF-RNN】
条件随机场作为递归神经网络
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(是)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(好)(的)(情)(情)(情)(况)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】CRAFTR-FCNIONmultipath Net【T21 [ 约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3 ] [ FPN ] [ 视网膜网 ] [ DCN ]
语义切分 FCNde convnetdeeplab v1&deeplab v2SegNet】【parse netdilated netPSP netdeeplab v3DRN
生物医学图像分割 cumed vision 1cumed vision 2/DCANU-NetCFS-FCNU-Net+ResNet多通道
实例分段 DeepMask SharpMask MultiPathNet MNC InstanceFCN FCIS 】
)(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。
回顾:DCN/DCN v1——可变形卷积网络,2017 年 COCO 检测(物体检测)亚军
使用可变形卷积,改进了更快的 R-CNN 和 R-FCN,在可可检测中获得亚军,在可可分割中获得季军。
A 继 STN 之后,这次 DCN(可变形卷积网络),由微软亚洲研究院(MSRA) 进行评审。它也被称为 DCNv1 ,因为后来作者也提出了 DCNv2。
(a) Conventional Convolution, (b) Deformable Convolution, © Special Case of Deformable Convolution with Scaling, (d) Special Case of Deformable Convolution with Rotation
常规/常规卷积基于定义的滤波器尺寸,在来自输入图像或一组输入特征图的预定义矩形网格上操作。该网格的大小可以是 3×3 和 5×5 等。然而,我们想要检测和分类的对象可能会在图像中变形或被遮挡。
在 DCN 中,网格是可变形的,因为每个网格点都移动了一个可学习的偏移量。和卷积在这些移动的网格点上操作,因此被称为可变形卷积,类似于可变形 RoI 合并的情况。通过使用这两个新模块,DCN 提高了 DeepLab 、fast R-CNN、 R-FCN 和 FPN 等的精确度。
最终,通过使用DCN+FPN+对齐 例外 ,MSRA 获得了 COCO 检测挑战赛亚军和细分挑战赛季军。发表于 2017 ICCV ,引用 200 余次。( Sik-Ho Tsang @中)
概述
- 可变形回旋
- 可变形 RoI 汇集
- 可变形正敏感(PS) RoI 汇集
- 使用 ResNet-101 &对齐-初始-ResNet 的可变形 ConvNets
- 消融研究&结果
- 使用比对异常的 COCO 检测挑战的更多结果
1.可变形卷积
Deformable Convolution
- 规则卷积在规则网格 R 上运算。
- 可变形卷积运算在 R 上进行,但是每个点都增加了一个可学习的偏移量∈pn。
- 卷积用于生成对应于 N 2D 偏移∈pn(x-方向和y-方向)的 2 N 个特征图。
Standard Convolution (Left), Deformable Convolution (Right)
- 如上所示,可变形卷积将根据输入图像或特征图为卷积选取不同位置的值。
- 相比 阿特鲁卷积 : 阿特鲁卷积在卷积时具有较大但固定的膨胀值,而可变形卷积在卷积时对网格中的每个点应用不同的膨胀值。(阿特鲁卷积也叫扩张卷积或空洞算法。)
- 相对于 空间变换网络 : 空间变换网络对输入图像或特征地图进行变换,而可变形卷积可以被视为一个极轻量级的空间变换网络。
2.可变形 RoI 合并
Deformable RoI Pooling
- 常规 RoI 池将任意大小的输入矩形区域转换为固定大小的特征。
- 在可变形 RoI 合并中,首先,在顶部路径,我们仍然需要常规 RoI 合并来生成合并的特征图。
- 然后,一个全连接(fc)层生成归一化偏移∈p̂ij和**,然后转换为偏移∈pij**(右下方的等式),其中γ=0.1。
- 偏移归一化对于使偏移学习不随 RoI 尺寸变化是必要的。
- 最后,在底部路径,我们执行可变形 RoI 合并。输出要素地图基于具有增大偏移的区域进行合并。
3。可变形正敏感(PS) RoI 汇集
Deformable Positive-Sensitive (PS) RoI Pooling (Colors are important here)
- 对于 R-FCN 中的原始正敏感(PS) RoI pooling,首先将所有输入特征图转换为每个对象类的 k 得分图(总共 C 对于 C 对象类+ 1 个背景)(最好先阅读 R-FCN 来了解原始 PS RoI pooling)。如果感兴趣,请阅读关于它的评论。)
- 在可变形 PS RoI 合并中,首先,在顶部路径,与原始路径类似, conv 用于生成 2 个 k ( C +1)分数图。
- 这意味着对于每个类,将有 k 个特征地图。这些 k 特征图代表了{左上(TL),中上(TC)、…,右下角(BR)} 我们要学习的对象的偏移量。
- 偏移(顶部路径)的原始 PS RoI 汇集在中完成,即**它们汇集在图中的相同区域和相同颜色。**我们在这里得到补偿。
- 最后,在底部路径,我们执行可变形 PS RoI 合并来合并由偏移增加的特征图。
4。使用 ResNet-101 &对准初始 ResNet 的可变形 ConvNets
4.1.对齐- 盗梦空间-ResNet
Aligned-Inception-ResNet Architecture (Left), Inception Residual Block (IRB) (Right)
- 在原始Inception-ResNet中,在 Inception-v4 中提出了对准问题,对于靠近输出的特征图上的细胞,其在图像上的投影空间位置与其感受野中心位置不对准。
- 在Aligned-Inception-ResNet中,我们可以看到在 Inception 残差块(IRB)内,所有用于因子分解的非对称卷积(例如:1×7,7×1,1×3,3×1 conv)都被去除了。如上所示,仅使用一种 IRB。此外,IRB 的编号不同于 Inception-ResNet-v1 或 Inception-ResNet-v2 。
Error Rates on ImageNet-1K validation.
- aligned-Inception-ResNet比 ResNet-101 的错误率低。
- 虽然 Aligned-Inception-ResNet比 Inception-ResNet-v2 有更高的错误率,Aligned-Inception-ResNet解决了对齐问题。
4.2.修改后的 ResNet-101 & Aligned-Inception-ResNet
- 现在我们得到了两个主干:ResNet-101&Aligned-Inception-ResNet用于特征提取,原本用于图像分类任务。
- 然而,输出特征图太小,这对于对象检测和分割任务来说是不好的。
- 阿特鲁卷积(或扩张卷积)用于减少最后一个块(conv5)的开始,步幅从 2 变为 1。
- 因此,最后一个卷积块中的有效步幅从 32 个像素减少到 16 个像素,以增加特征图的分辨率。
4.3.不同的物体探测器
5.消融研究和结果
语义分割
- PASCAL VOC ,20 个类别,带有附加遮罩注释的 VOC 2012 数据集,用于训练的 10,582 幅图像,用于验证的 1,449 幅图像。 mIoU@V 用于评价。
- 城市景观,19 个类别+ 1 个背景类别,2975 张用于训练的图像,500 张用于验证的图像。 mIoU@C 用于评估。
物体检测
- PASCAL VOC ,VOC 2007 trainval 和 VOC 2012 trainval 联合培训,VOC 2007 测试评估。使用贴图@0.5 和贴图@0.7 。
- COCO ,trainval 中 120k 图像,test-dev 中 20k 图像。mAP @ 0.5:0.95和 mAP@0.5 用于评估。
5.1.对不同数量的最后几层应用可变形卷积
Results of using deformable convolution in the last 1, 2, 3, and 6 convolutional layers (of 3×3 filter) in ResNet-101
- 3 和 6 可变形回旋也是好的。最后,作者选择了 3,因为对于不同的任务有一个的良好权衡。
- 而且我们还可以看到 DCN 提高了 DeepLab 、类感知 RPN(或者视为简化的SSD)、 更快的 R-CNN 和R-FCN。
5.2.分析可变形卷积偏移距离
Analysis of deformable convolution in the last 3 convolutional layers
Examples: three levels of 3×3 deformable filters for three activation units (green points) on the background (left), a small object (middle), and a large object (right)
- 为了说明 DCN 的有效性,也进行了如上的分析。首先,根据地面真实边界框注释和滤波器中心的位置,将可变形卷积滤波器分为四类:小、中、大和背景。
- 然后,测量扩张值(偏移距离)的平均值和标准偏差。
- 发现可变形滤光器的感受野大小与对象大小相关,表明变形是从图像内容中有效学习的。
- 并且背景区域上的滤光器尺寸介于中大型物体上的滤光器尺寸之间,这表明相对较大的感受野对于识别背景区域是必要的。
Offset parts in deformable (positive sensitive) RoI pooling in R-FCN and 3×3 bins (red) for an input RoI (yellow)
- 类似地,对于可变形的 RoI 合并,现在部件被偏移以覆盖非刚性对象。
5.3.帕斯卡 VOC 与阿特鲁卷积的比较
Comparison of Atrous Convolution & Deformable Convolution
- 只有可变形卷积 : DeepLab 、类感知 RPN、 R-FCN 有了改进,已经胜过 DeepLab 、类感知 RPN 和 R-FCN 有 atrous 卷积。并且具有可变形卷积的更快的 R-CNN 获得了与具有不规则卷积 (4,4,4)的更快的 R-CNN 的竞争结果。
- 仅可变形 RoI 合并:仅在更快的 R-CNN 和 R-FCN 中有 RoI 合并。具有可变形 RoI 池的更快 R-CNN 获得与具有 atrous 卷积 (4,4,4)的更快 R-CNN 竞争的结果。具有可变形 RoI 池的 R-FCN 优于具有 atrous 卷积 (4,4,4)的 R-FCN 。
- 变形卷积& RoI 合并 : 更快的 R-CNN 和 R-FCN 带变形卷积& RoI 合并是所有设置中最好的。
5.4.PASCAL VOC 上的模型复杂性和运行时间
Model Complexity and Runtime
- 可变形的凸网只增加了模型参数和计算的少量开销。
- 除了增加模型参数之外,显著的性能改进来自于对几何变换进行建模的能力。
5.5.COCO 上的对象检测
Object Detection on COCO test-dev (M: Multi-Scale Testing with Shorter Side {480, 576, 688, 864, 1200, 1400}, B: Iterative Bounding Box Average)
- 使用可变形的 ConvNet 始终优于普通的。
- 用对齐-Inception-ResNet,用 R-FCN 与可变形 ConvNet ,加上多尺度测试和迭代包围盒平均,**37.5% mAP @【0.5:0.95】**得到。
6。使用比对异常检测 COCO 挑战的更多结果
- 以上结果来自论文。他们还在 ICCV 2017 大会上展示了一项新成果。
6.1.对齐异常
Aligned Xception
6.2.可可检测挑战
Object Detection on COCO test-dev
- ResNet-101 作为特征提取器,****+OHEM 作为物体检测器**:获得了 40.5%的 mAP,已经高于上一节提到的结果。**
- 用对齐的 替换ResNet-101例外 : 43.3% mAP。
- 6 款车型组合+其他小改进 : 50.7%地图。
- 在 COCO 2017 探测挑战排行榜中,50.4%的地图使其成为挑战亚军。
- 在 COCO 2017 细分挑战赛排行榜中,42.6%的地图使其成为挑战赛季军。
- 排行榜:http://cocodataset.org/#detection-leaderboard
如果有时间,希望也能复习一下 DCNv2。
参考
【2017 ICCV】【DCN】
可变形卷积网络
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(们)(还)(不)(想)(到)(这)(些)(人)(们)(,)(我)(们)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(们)(还)(没)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(里)(去)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(里)(去)(了)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(到)(这)(里)(来)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】R-FCN】离子多路径网NoC
语义切分 FCNde convnetdeeplab v1&deeplab v2parse net】dilated netPSP netdeeplab v3
生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet
实例分割
[深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS
超分辨率 Sr CNNfsr CNNVDSRESPCN红网】
回顾:深层级联(LC) —并非所有像素都相等(语义分割)
对于容易、中等和困难区域的分割,优于**CRF-RNNSegNetdilated netdeeplabv 1&deeplabv 2******
Segmentation for Easy, Moderate and Hard Regions
It 很久没有复习论文了,因为最近我一直在忙一些几何问题的研究工作,这不是我的强项。而且还在进行中。而昨天(23/07/2019),我已经加入了 AWSome Day ( 照片),同时抽时间看了一下深层级联(LC) 论文,lol。因此,在这个故事中,我想谈谈这篇由中文大学(CUHK)和深圳先进技术研究院发表的 2017 CVPR 论文,这篇论文被引用了 60 多次。( Sik-Ho Tsang @中)****
动机:
- 原本使用深度骨干网和高分辨率特征图**,使得分割过程变慢。******
主要思想:
- 早期地层划分的易发区。
- 仅使用区域卷积(RC) 通过后面/更深的层分类的硬/困难区域。
- 最后,分割精度提高而训练和推理时间减少。****
概述
- 深层级联
- 区域卷积(RC)
- 训练
- 消融研究
- 性能和速度分析
- 与最先进方法的比较
1。深层级联(LC)
1.1.将Inception-ResNet(IRNet)从图像分类目的转向语义分割目的
Original Inception-ResNet (IRNet) for Image Classification
- 【Inception-ResNet(IRNet),原本用于图像分类,如上图,修改后用于语义分割。
- 首先,为了增加预测的分辨率,IRNet 末端的池层被移除。并且通过减小“缩减-A/B”(从 2 到 1)中的卷积步长来扩大特征图的大小。因此,网络输出(标签图)的大小扩大了 4 倍。
- 其次,小批量的大小受限(例如 8)。
1.2.从 IRNet 到 LC (IRNet-LC)
IRNet After Layer Cascade (LC) (IRNet-LC)
- 如上图所示,IRNet-LC 有三个阶段和。这三个阶段分别用黄色、绿色和蓝色来区分。
- 两个卷积层和一个 softmax 损耗被附加在每个阶段的末尾。每个阶段都有自己的损失函数。
- 第一阶段预测 21×64×64 分割标记图 L1。
- 如果第 i 个像素的最大分数大于阈值 p (例如,0.95),则接受预测类,并且该像素不传播到阶段 2。
- 发现在 p =0.95 的情况下,第一阶段中预测置信度> 0.95 的像素占据了一幅图像近 40%的区域,包含了大量的易像素。
- 以及少量极硬像素,这些极硬像素具有被错误分类的高置信度。
- 通过使更深的层能够聚焦于前景对象,从网络中移除那些容易的像素显著减少了计算并提高了准确性。
- 阶段 2 到阶段 3 的情况类似。
- 在通过所有三个阶段传播图像之后,我们直接组合这些阶段的预测标签图作为最终预测。
- 最后, stage-1 信任大多数背景中的预测。
- 阶段 2 和阶段 3 被学习来预测“较硬”区域,例如“人”和“马”。
2.区域卷积(RC)
- (a) :标准正则卷积。
- (b):区域卷积(RC)中的滤波器只卷积感兴趣的区域,记为 M ,忽略其他区域,大大减少了计算量。其他区域的值直接设置为零。
- 这意味着 M 被实现为二进制掩码。
- © : RC 上一个剩余模块,h(I)=I+conv(I)。这相当于学习了一个掩蔽残差表示。****
- 因此,每个阶段只需要学习它所关注的区域的特征。
3.培养
网络由 ImageNet 中的预训练初始化。通过从正态分布中采样来初始化附加参数。而网络是先进行初始训练,再进行级联训练。****
3.1.初步训练
- 这一步类似于深度监督网络(DSN) ,在网络的不同层有多个相同的损失函数。
- 它学习区分性和鲁棒性特征。
- 每一级都被训练成最小化逐像素的 softmax 损失函数。
- 通过使用反向传播(BP)和随机梯度下降(SGD)来联合优化这些损失函数。
3.2.级联训练
- 通过利用 p 的级联策略对网络进行微调。
- 更具体地说,BP 中的梯度仅传播到每个阶段的感兴趣区域。
- 直观地说,当前阶段对在前一阶段中具有低置信度的像素进行微调,使得“更硬”的像素能够被更深的层捕获,以提高分割精度并减少计算。
4.消融研究
4.1. p 的值
Performances Using Different p.
- PASCAL VOC 2012 验证集用于消融研究。
- 如果 p =1,就跟 DSN 一样,比全卷积 IRNet 略胜一筹。
- 当 p 减小时,更容易的区域在早期阶段被分类,而较难的区域由后期阶段逐步处理。
- 如果 p 太小,算法可能会变得过于乐观,即在早期阶段处理许多硬区域,并提前做出决策。性能将受到损害。
- 当 p = 0.985 时,即前期和的 52%区域附近的 LC 过程达到最佳性能。该值用于以下所有实验。
4.2.层级联的有效性
Effectiveness of Layer Cascade (LC)
- IRNet :全卷积 IRNet。
- DSN : IRNet 只经过初步训练。
- DSN+Dropout :带 Dropout 的 DSN。
- 模型级联(MC) : MC 将 IRNet 分为三个阶段,每个阶段分别进行训练。当训练某一阶段时,所有先前阶段的参数都是固定的。
- 由此产生子模型,并使模型变浅,最终获得不良性能。
- 层叠(LC) :相反,LC 具有层叠的吸引人的性质,并且还保持整个模型的内在深度。
- 针对硬区域自适应地保持模型深度的能力使得 LC 在比较中表现突出。
4.3.逐阶段分析
(a) Change of label distribution in stage-2 and stage-3, (b) percentages of pixels at each stage for individual classes
- (a) 示出了像素数相对于阶段-2 和-3 中的每个类别如何变化。所有比率都增加了,属于 1 到 1.4 的范围。****
- 因为阶段 1 已经处理了容易的区域(即“背景”)并将困难的区域(即“前景”)留给阶段 2。
- 阶段 2 到阶段 3 的情况类似。第三阶段进一步关注更难的课程
- (b)显示了像“椅子”和“桌子”这样的较难的类具有由较深的层处理的更多像素(阶段 3)。
4.4.逐阶段可视化
Visualization of different stages’ outputs on PASCAL VOC 2012 dataset
- 在 PASCAL VOC 2012 中,像“背景”和“人脸”这样的简单区域首先由 LC 中的 stage-1 标记。
Visualization of different stages’ outputs on Cityscape dataset
- 类似地,在城市景观中,像“道路”和“建筑物”这样的简单区域首先由阶段 1 标记。其他的小物体和细节,如“柱子”和“行人”由阶段 2 和阶段 3 处理。
5.性能和速度分析
Performance on PASCAL VOC 2012
- 这里对 DeepLabv2 和 SegNet 没有前后处理。
- DeepLabv2 :使用超深 ResNet-101 的 mIoU 为 20.42。因此,推断的速度很慢(7.1 FPS)。
- SegNet :速度更快(14.6 FPS),但代价超过 1000 万。
- LC :具有区域卷积的级联端到端可训练框架允许其以可接受的速度(14.7 FPS)实现最佳性能(73.91 mIoU)。
- LC(快速):0.8 的较小 p 的 LC。它在 23.6 FPS 下仍显示出 66.95 的竞争 mIoU。
Further Performance and Speed Trade-off
- 减小 p 会稍微影响精度,但会大大减少计算时间。
6.与最先进方法的比较
6.1.帕斯卡 VOC 2012
mIoU on PASCAL VOC 2012 Test Set (+: Pre-training on MS COCO)
- LC 实现了 80.3 的 mIoU,并通过 COCO 的预训练将 mIoU 进一步提高到 82.7,优于 SOTA 的方法,如 FCN 、DeepLabv1&DeepLabv2。
- LC 赢得了 20 个前台类中的 16 个。
- 在一些特殊的类别中,如“自行车”、“椅子”、“植物”和“沙发”,可以观察到较大的收益。
6.2.城市风光
mIoU on Cityscape Test Set
- [19]由于使用了更深的主干网络来探索更丰富的上下文信息,因此性能略优于 LC。
- 但是 LC 仍然在 19 个等级中的 9 个上获胜。
- LC 在“传统上被视为”硬类别的类别中表现突出,例如,“栅栏”、“杆子”、“标志”、“卡车”、“公共汽车”和“自行车”,这些类别通常表现出灵活的形状和精细的细节。
6.3.不同设置的更多比较
Comparisons with state-of-the-art methods on PASCAL VOC 2012 test set
- IRNet-LC 使用Inception-ResNet-v2(IRNet)作为主干网络,比 ResNet-101 要小(35.5M vs. 44.5M)。
- IRNet-LC 采用了 DeepLabv2 中使用的阿特鲁空间金字塔池。
- 没有对 COCO 女士进行预训练的 IRNet-LC 获得最佳性能。
- 当删除“COCO”、“multiscale”和“CRF”时,IRNet-LC 仍然获得了与 DeepLabv2 相当的性能(78.2%对 79.7%),但在 FPS 方面明显优于deeplabv 2(14.3 FPS 对 0.9 fps)。
- IRNet-LC 在不采用任何预处理和后处理步骤的情况下,分别比最先进的系统如 CRF-RNN 和 DPN 高出 3.5%和 0.7%。
6.4.形象化
PASCAL VOC 2012 Validation Set
Cityscape Validation Set
参考
【2017 CVPR】【LC】
并非所有像素都相等:经由深层级联的难度感知语义分割
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(有)(什)(么)(情)(况)(呢)(?)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(是)(这)(些)(人)(,)(还)(没)(有)(什)(么)(好)(的)(情)(感)(,)(我)(们)(还)(没)(有)(什)(么)(好)(的)(情)(感)(,)(但)(我)(们)(还)(没)(有)(什)(么)(好)(好)(的)(情)(感)(。 )(我)(们)(都)(不)(想)(要)(让)(这)(些)(人)(都)(有)(这)(些)(情)(况)(,)(我)(们)(还)(不)(想)(要)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(就)(是)(这)(些)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(。 )(我)(们)(都)(不)(知)(道)(,)(我)(们)(都)(是)(很)(强)(的)(,)(我)(们)(都)(是)(很)(强)(的)(对)(对)(对)(对)(起)(来)(,)(我)(们)(都)(是)(很)(强)(的)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(
物体检测 [ 过食 ] [ R-CNN ] [ 快 R-CNN ] [ 快 R-CNN][MR-CNN&S-CNN][DeepID-Net][CRAFT][R-FCN][离子 [G-RMI][TDM][SSD][DSSD][yolo v1][yolo v2/yolo 9000][yolo v3][FPN[retina net[DCN
语义切分[FCN][de convnet][deeplabv 1&deeplabv 2][CRF-RNN][SegNet][parse net][dilated net][DRN][RefineNet][
生物医学图像分割[cumevision 1][cumevision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net][M FCN]
实例分割 [ SDS ] [ 超列 ] [ 深度掩码 ] [ 清晰度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS
)( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )(
DeepPose Tompson NIPS’14 Tompson CVPR’15 CPM
复习:DeepLabv3 —阿特鲁卷积(语义分割)
Rethink DeepLab,优于 PSP net(2016 ils vrc 场景解析挑战赛冠军)
在这个故事中,谷歌的 DeepLabv3 被呈现。在 DeepLabv1 和 DeepLabv2 被发明出来后,作者试图重新思考或重组 DeepLab 架构,并最终提出了一个更加增强的 DeepLabv3。 DeepLabv3 的性能优于 DeepLabv1 和 DeepLabv2 ,即使去掉了最初用于 DeepLabv1 和 DeepLabv2 的后处理步骤条件随机字段(CRF)。
因此,这篇论文的名字叫做“重新思考用于语义图像分割的阿特鲁卷积”。与 Inception-v3 的论文名称相伴的是“重新思考……”,名为“重新思考计算机视觉的 Inception 架构”,其中Inception-v1(Google net)和Inception-v2(Batch Norm)被重组为 Inception-v3 。但是现在, DeepLabv2 在这里重组为 DeepLabv3。而且是一篇 2017 arXiv 科技报告,引用 200 多次。( Sik-Ho Tsang @中)
概述
- 阿特鲁卷积
- 使用多重网格深入阿特鲁卷积
- 阿特鲁空间金字塔汇集(ASPP)
- PASCAL VOC 2012 年烧蚀研究
- 与 PASCAL VOC 2012 年最新方法的比较
- 与最新城市景观方法的比较
1。阿特鲁卷积
Atrous Convolution with Different Rates r
Atrous Convolution
- 对于输出 y 和滤波器 w 上的每个位置 i ,atrous 卷积应用于输入特征图 x 上,其中 atrous 速率 r 对应于我们对输入信号进行采样的步幅。
- 这相当于将输入 x 与通过沿每个空间维度在两个连续滤波器值之间插入 r -1 个零而产生的上采样滤波器进行卷积。(trous 在英语中是洞的意思。)
- 当 r =1 时,为标准卷积。
- 通过调整 r,我们可以自适应地修改过滤器的视野。
- 也称扩张卷积 ( 扩张网)或孔洞算法。
Standard Convolution (Top) Atrous Convolution (Bottom)
- 顶:标准卷积。
- 底部:阿特鲁卷积。我们可以看到,当 rate = 2 时,输入信号是交替采样的。首先,pad=2 意味着我们在左右两边都填充 2 个零。然后,当 rate=2 时,我们每隔 2 个输入对输入信号进行采样以进行卷积。阿特鲁卷积允许我们扩大过滤器的视野,以纳入更大的背景。因此,它提供了一种有效的机制来控制视野和 f 找到精确定位(小视野)和上下文同化(大视野)之间的最佳折衷。
2。使用多重网格深入研究阿特鲁卷积
- (a)无阿特鲁 Conv :执行标准 Conv 和池化,使输出步幅增加,即输出特征图变小,越深入。然而,连续跨越对于语义分割是有害的,因为位置/空间信息在更深的层丢失了。
- (b)与阿特鲁·conv:与阿特鲁斯·conv 一起,我们可以保持步幅不变,但视野更大,而不增加参数数量或计算量。最后,我们可以有更大的输出特征图,这有利于语义分割。
- 例如,当 output stride = 16 且 Multi Grid = (1,2,4)时,块 4 中的三个卷积将分别具有 rates = 2×(1,2,4) = (2,4,8)。
3。阿特鲁空间金字塔池(ASPP)
Atrous Spatial Pyramid Pooling (ASPP)
- ASPP 已经在 DeepLabv2 中推出。这次,来自 Inception-v2 的批量标准化(BN)被包含到 ASPP。
- 使用 ASPP 的原因是,随着采样率变大,有效滤波器权重(即,应用于有效特征区域而不是填充零的权重)的数量变小。
- 一个 1×1 卷积和三个 3×3 卷积,码率= (6,12,18) 当输出步长= 16 时。
- 此外, ParseNet 的图像池或图像级特征也包含在全局上下文中。(有兴趣请阅读我的 ParseNet 评测。)
- 全部用 256 过滤器和批量归一化。
- 当输出步幅= 8 时,速率加倍。
- 来自所有分支的结果特征然后被连接并通过另一个 1×1 卷积(也有 256 个过滤器和批量标准化),然后通过最终 1×1 卷积生成最终逻辑。
其他人
上采样逻辑
- 在 DeepLabv2 中,目标地面实况在训练期间被向下采样 8 倍。
- 在 DeepLabv3 中,发现保持基本事实的完整性,而不是对最终逻辑进行上采样是非常重要的。
4.PASCAL VOC 2012 烧蚀研究
4.1.输出步幅
Going deeper with atrous convolution when employing ResNet-50 with block7 and different output stride.
- 将 ResNet-50 与 block7(即额外的 block5、block6 和 block7)一起使用时。如表所示,在输出跨距= 256 的情况下(即完全没有 atrous 卷积),性能要差得多。
- 当输出步幅变大并相应地应用 atrous 卷积时,性能从 20.29%提高到 75.18%,表明 atrous 卷积在为语义分割级联构建更多块时是必不可少的。
4.2.ResNet-101
ResNet-50 vs ResNet-101
- 毫无疑问,ResNet-101 始终比 ResNet-50 好。
- 值得注意的是,将 block7 用于 ResNet-50 会略微降低性能,但仍会提高 ResNet-101 的性能。
4.3.多重网格
Employing multi-grid method for ResNet-101 with different number of cascaded blocks at output stride = 16.
- 应用多重网格方法通常比(r1,r2,r3) = (1,1,1)的普通版本更好。
- 简单地将单位速率加倍(即(r1,r2,r3) = (2,2,2))是无效的。
- 使用多重网格可以提高性能。
- 最佳模型是采用 block7 和(r1,r2,r3) = (1,2,1)的情况。
4.4.推理策略
Inference strategy on the val set. MG: Multi-grid. OS: output stride. MS: Multi-scale inputs during test. Flip: Adding left-right flipped inputs.
- 用输出步幅= 16 训练该模型。
- 当在推理过程中使用 output stride = 8 (OS=8)来获得更详细的特征图时,性能提高了 1.39%。
- 当使用尺度= {0.5,0.75,1.0,1.25,1.5,1.75}的多尺度(MS)输入以及使用左右翻转图像并平均概率时,性能进一步提高到 79.35%。
4.5.ASPP
ASPP with MG method and image-level features at output stride = 16.
- 由 ParseNet 提供的图像池或图像级功能也包含在全局上下文中。(有兴趣请阅读我的 ParseNet 评测。)
- 在 ASPP = (6,12,18)的背景下采用多重网格= (1,2,4)优于多重网格= (1,1,1)和(1,2,1)。
- 用 ASPP = (6,12,18)比 ASPP = (6,12,18,24)好。
- 采用图像级特征后,性能进一步提高到 77.21%。
4.6.作物大小、上采样逻辑、批量标准、批量大小、训练和测试输出步幅
- 使用更大的作物尺寸 513 比 321 好。
- 用上采样对数和批量常模,77.21%。
- 在 4、8、12 和 16 中,使用批量 16 是最好的。
- 使用训练和测试输出步幅= (8,8)具有 77.21%的结果,而使用训练和测试输出步幅= (16,8)具有 78.51%的更好结果。
4.7.培训期间的副本数量
Number of Replicas During Training
- TensorFlow 用于训练。
- 使用只需要 1 个副本,3.65 天的训练时间。
- 使用 32 个副本,只需要 2.74 小时的训练时间。
4.7.一起
Inference strategy on the val set
- MG(1,2,4) + ASPP(6,12,18) +图像池 : 得到 77.21% ,与 4.5 的结果相同。
- 推理输出步幅= 8 , 78.51% 。
- 多尺度(MS)测试 : 79.45% 。
- 水平翻转(翻转) : 79.77% 。
- 用椰子进行预处理后: 82.70% 。
- 值得注意的是,经过重新思考和重组,在不使用后处理 CRF(用于 DeepLabv2 )的情况下,已经比使用 CRF 和使用 COCO 进行预训练的 DeepLabv2 好了 77.69%。
5。与最先进方法的比较
5.1.PASCAL VOC 2012 测试集
PASCAL VOC 2012 Test Set
- DeepLabv3 :对 PASCAL VOC 2012 trainval set 进行进一步微调,使用输出步幅= 8 进行训练,在硬映像上引导。特别地,包含硬分类的图像被复制, 85.7% 。
Effect of Bootstrapping
- 上面显示的硬图像上自举的改进提高了稀有和精细注释类(如自行车)的分割精度。
- 并且 DeepLabv3 胜过 PSPNet ,在 ILSVRC 2016 场景解析挑战赛中获得第一名。
- DeepLabv3-JFT :采用已经在 ImageNet 和 JFT-300M 数据集上预处理过的 ResNet-101, 86.9% 。
Qualitative Results (Last Row, Failure Case) on PASCAL VOC 2012
6。与最新城市景观方法的比较
6.1.不同的设置
- 类似于 PASCAL VOC 2012,使用 8 的输出跨距进行测试,多标度和水平翻转也是如此,性能得到了提高。
6.2.城市景观测试集
Cityscape Test Set
- 为了获得更好的比较性能,DeepLabv3 在 trainval 粗集上进一步训练(即 3475 个精细注释图像和额外的 20000 个粗注释图像)。
- 推理时使用更多的刻度和更精细的输出步幅。特别地,在标度= {0.75,1,1.25,1.5,1.75,2} 和求值输出步距= 4 的情况下,这分别为在验证集上贡献了额外的 0.8%和 0.1%。
- 最终在测试集上取得了 81.3% mIOU,比PSP net略好。****
Qualitative Results on Cityscape
DeepLabv3 仅在很小的差距上胜过 PSPNet,也许这也是为什么它只是 arXiv 中的一份技术报告。但是后来,发明了比 DeepLabv3 好得多的 DeepLabv3+。希望以后可以复习 DeepLabv3+。😃
参考
【2017 arXiv】【DeepLabv3】
反思阿特鲁卷积用于语义图像分割
我的相关评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】R-FCN】离子多路径网NoC
语义切分 FCNde convnetdeeplabv 1&deeplabv 2】parse net】dilated netPSPNet]
生物医学图像分割
实例分割
[深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS
超分辨率 Sr CNNfsr CNNVDSRESPCN红网】
综述:深度姿势 CNN 的级联(人体姿势估计)
在四个数据集上使用级联卷积神经网络进行优化,实现最先进的性能
在这个故事里,的 DeepPose,Google 的,用于人体姿态估计,进行了回顾。它被公式化为基于深度神经网络(DNN)的针对身体关节的回归问题。利用级联的 DNN,可以实现高精度的姿态估计。这是一篇 2014 年 CVPR 论文,引用超过 900 次。( Sik-Ho Tsang @中)
概述
- 姿态向量
- 卷积神经网络(CNN)作为姿态回归器
- 姿态回归器的级联
- 结果
1.姿态向量
Pose Vector (Miss You Paul Walker!)
- 为了表达一个姿势,我们将所有 k 个身体关节的位置编码在姿势向量中,定义为 y :
- 对于每一个*,都有第 I 个关节的 x 和 y 坐标。这些是图像中的绝对坐标。*
- 被标记的图像由( x , y )表示,其中 x 是图像数据, y 是地面真实姿态向量,如上式所示。(我遵循了论文中的指示,尽管对 y 来说可能有点混乱。)
- 并且我们可以**归一化人体或其部分所围成的坐标yiw . r . t . a 框 b ,其中 b =( bc , bw , bh )以 bc 为中心, bw 为**
- 如上图, 易 按方框大小缩放,按方框中心平移。使用:
- N(y; b ) 是归一化的姿态向量。以及N*(x); b 是由边界框 b 对图像 x 的裁剪。*
2.C 选择神经网络(CNN)作为姿态回归器
CNN As Pose Regressor
- 利用训练好的参数 θ ,基于 CNN 的 ψ 输出关节的归一化预测。 y 可以通过反规格化得到 N ^-1.*
- 架构如上图是 AlexNet 。
- 第一层将预定义尺寸的图像作为输入*。*
- 最后一层输出 2k 关节坐标。
- C(55×55×96)—LRN—P—C(27×27×256)—LRN—P—C(13×13×384)—C(13×13×384)—C(13×13×256)—P—F(4096)—F(4096)其中 C 为卷积,LRN 为局部响应归一化,P 为汇集,F 为全连通层。
- 参数总数为 40M。
- 该损失是通过最小化预测的和地面真实姿态向量之间的 L2 距离来预测姿态向量的线性回归损失。
- 利用归一化训练集 D_N ,L2 损失为:
- 其中 k 是该图像中关节的数量。
- 小批量是 128 个。通过随机平移和左/右翻转增加数据。
3.姿态回归器的级联
Cascade of Pose Regressors: First Stage: (Left), Subsequent Stages (Right)
- 不容易增加输入大小来获得更精细的姿态估计,因为这将增加已经很大数量的参数。因此,提出了级联的姿态回归器。
- 因此,随着阶段 s 的参与,第一阶段:
- 其中 b ⁰是人探测器获得的完整图像或一个方框。
- 然后,后续阶段:
- 其中 diam( y )是相对关节的距离,比如左肩和右髋,然后用σ缩放,σdiam( y )。
- 对于后续层,基于来自niss*-1)的采样位移 ẟ 进行增强以生成模拟预测:*
- 并且训练基于这个扩充的训练集:
4.结果
4.1.数据集
- 电影中标记的帧(FLIC) :来自好莱坞电影的 4000 个训练和 1000 个测试图像,姿势多样,服装多样。对于每个被标记的人,标记 10 个上身关节。
- Leeds Sports Dataset(LSP):11000 张训练和 1000 张测试图像,这些图像来自在外观和特别是发音方面具有挑战性的体育活动。大多数人有 150 像素高。每个人全身总共有 14 个关节。
4.2.韵律学
- 正确部位百分比(PCP) :测量肢体检测率,其中如果两个预测关节位置和真实肢体关节位置之间的距离最多为肢体长度的一半,则认为检测到肢体。
- 检测到的关节百分比(PDJ) :如果预测关节和真实关节之间的距离在躯干直径的某个分数范围内,则认为检测到了一个关节。通过改变这个分数,可以获得不同程度定位精度的检测率。
4.3.消融研究
- FLIC 和 LSP 数据集的 50 个图像的小集合。
- 对于 FLIC,探索值{0.8,1.0,1.2}后σ = 1.0。
- 对于 LSP,探索值{1.5,1.7,2.0,2.3}后σ = 2.0。
- 对于上述数据集,当 S = 3 时,停止改进。
- 对于从 s = 2 开始的每个级联阶段,增加 40 个随机平移的裁剪框。对于 14 节点的 LSP,训练样本数= 11000×40×2×14 = 12M。
- 在 12 核 CPU 上,每个图像的运行时间约为 0.1 秒。
- 初始阶段大约在 3 天内进行培训。100 名工人,但大部分最终表演是在 12 个小时后完成的。
- 每个细化阶段训练 7 天,因为由于数据扩充,数据量比初始阶段的数据量大 40。
PDJ on FLIC or the first three stages of the DNN cascade
- 级联 CNN 进行优化有助于改善结果。
Predicted Pose (Red) Ground Truth Poses (Green)
- 同样,细化有助于改善结果。
4.4.与最先进方法的比较
PDJ on FLIC for Two Joints: Elbows and Wrists
PDJ on LSP for Two Joints: Arms and Legs
- 对于两个数据集,DeepPose 获得了与真实关节的不同归一化距离的最高检测率。
PCP at 0.5 on LSP
- DeepPose-st2 和 DeepPose-st3 获得了最先进的结果。
4.5.跨数据集综合
PDJ on Buffy Dataset for To Joints: Elbow and Wrist
- 此外,在 FLIC 上训练的上身模型应用于整个 Buffy 数据集。
- DeepPose 获得可比较的结果。
PCP at 0.5 on Image Parse Dataset
- 在 LSP 上训练的全身模型在图像解析数据集的测试部分上被测试。
4.6.示例姿势
Visualization of LSP
Visualization of FLIC
参考
【2014 CVPR】【Deep Pose】
Deep Pose:通过深度神经网络进行人体姿态估计
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(有)(什)(么)(情)(况)(呢)(?)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(是)(这)(些)(人)(,)(还)(是)(这)(些)(人)(,)(还)(没)(有)(什)(么)(好)(的)(情)(情)(况)(,)(还)(是)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNMR-CNN&S-CNNDeepID-NetCRAFTR-FCN】 [ DSSD ] [ 约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3 ] [ FPN ] [ 视网膜网 ] [ DCN ]
语义切分 FCNde convnetdeeplab v1&deeplab v2CRF-RNN】SegNet】parse netdilated netPSPNetdeeplab v3]
生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道[V-Net]
实例分割 [SDS[超列 ] [ 深度掩码 ] [ 锐度掩码 ] [ 多路径网络][MNC][Instance fcn][FCIS
超分辨率 [Sr CNN][fsr CNN][VDSR][ESPCN][红网][DRCN][DRRN][LapSRN&MS-LapSRN][srdensenenet
人体姿态估计
汤普逊 NIPS’14
综述:Dual 双路径网络(图像分类)
优于 ResNet、DenseNet、PolyNet、ResNeXt,ILSVRC 2017 对象本地化挑战赛冠军
在这个故事里,**【双路径网络】**被简要回顾。这是新加坡国立大学、北京理工大学、国防科技大学、奇虎 360 AI 研究所合作的作品。 ResNet 支持功能重用,而 DenseNet 支持新功能探索。DPN 从 ResNet 和 DenseNet 这两者中挑选优势。最后,它在图像分类任务上优于 ResNet 、 DenseNet 、 PolyNet 、 ResNeXt 。DPN 赢得了 ILSVRC 2017 本地化挑战赛。凭借更好的主干,它还可以为对象检测和语义分割任务获得最先进的结果。并作为 2017 NIPS 论文发表,引用 100 余篇。( Sik-Ho Tsang @中)
概述
1。 雷斯内特 , 丹森内特 和 DPN
1.1. DenseNet
- 作者尝试将 ResNet 和 DenseNet 表示为高阶递归神经网络(HORNN)进行解释。
- 当 DenseNet 表示为 HORNN 时, DenseNet 可以表示如上图。
- 绿色箭头表示共享权重卷积。
1.2.ResNet
- 添加了一个新路径来临时保存绿色箭头的输出以供重用。
ResNet (Left) DenseNet (Right)
- 虚线矩形实际上是剩余路径。
ResNet (Left) DenseNet (Right)
Managing a Company
1.3.DPN
DPN
- 为了兼具两者的优点,网络变成了如上左图。
- 将两列合并为一列,DPN 如上图所示。
Detailed Architecture and Complexity Comparison
- 与 ResNeXt 相比,DPN 被有意设计成具有相当小的模型尺寸和较少的 FLOPs。
- **DPN-92 比ResNeXt-101【32×4d】成本约为成本约为 15%,而 DPN-98 比ResNeXt-101**【64×4d】成本约为 26%。
- 在 224×224 输入的情况下, DPN-92 比ResNeXt-101【32×4d】DPN-98比ResNeXt-101消耗约25% FLOPs(64
2.与最先进方法的比较
2.1.图像分类
ImageNet-1k Dataset Validation Set (+: Mean-Max Pooling)
- 与 ResNeXt-101 (32×4d)相比,深度仅为 92 的浅 DPN 将 top-1 错误率降低了 0.5%的绝对值,与 DenseNet-161 相比,降低了 1.5%的绝对值,但提供的 FLOPs 要少得多。
- 更深的 DPN (DPN-98)超过了最好的残差网络— ResNeXt-101 (64×4d),并且仍然享有少 25%的 FLOPs 和小得多的模型尺寸(236 MB 对 320 MB)。
- DPN-131 显示出优于最佳单一型号的精确度——非常深的 PolyNet ,具有小得多的型号尺寸(304 MB v.s. 365 MB)。
- PolyNet 采用随机深度(SD) 等众多招数进行训练,DPN-131 可以使用标准训练策略进行训练。而且 DPN-131 的实际训练速度比波利尼特快 2 倍左右。
Comparison of total actual cost between different models during training.
- 实际成本如上所述进行比较。
- DPN-98 比性能最好的 ResNeXt 快 15%,使用的内存少 9%,测试错误率也低得多。
- 与性能最好的 ResNeXt 相比,更深的 DPN-131 只多花费了大约 19%的训练时间,但却达到了最先进的单一模型性能。
- PolyNet (537 层)【23】的训练速度,基于使用 MXNet 的重新实现,约为每秒 31 个样本,表明 DPN-131 在训练期间运行速度比 PolyNet 快约 2 倍。
4.2.场景分类
Places365-Standard dataset Validation Accuracy
- Places365-Standard 数据集是一个高分辨率的场景理解数据集,包含 365 个场景类别的超过 180 万幅图像。
- DPN-92 需要的参数少得多(138 MB 对 163 MB),这再次证明了它的高参数效率和高泛化能力。
4.3.目标检测
PASCAL VOC 2007 test set
- 该模型在 VOC 2007 trainval 和 VOC 2012 trainval 的联合集上进行训练,并在 VOC 2007 测试集上进行评估,使用更快的 R-CNN 框架。
- DPN 获得了 82.5%的地图,这是一个很大的进步,比 ResNet-101 提高了 6.1%,比 ResNeXt-101 (32×4d)提高了 2.4%。
4.4.语义分割
PASCAL VOC 2012 test set
- 细分框架基于 DeepLabv2 。conv4 和 conv5 中的 3×3 卷积层替换为 atrous 卷积,并且在 conv5 的最终要素图中使用了阿特鲁空间金字塔池(ASPP)。
- DPN-92 具有最高的整体 mIoU 精度,将整体 mIoU 提高了绝对值 1.7%。
- 考虑到的 ResNeXt-101 (32×4d)与的 ResNet-101 相比,整体 mIoU 仅提高绝对值 0.5%,建议的 DPN-92 与的 ResNeXt-101 (32×4d)相比,提高了 3 倍以上。
4.5.ILSVRC 2017 对象本地化
Visualization
- 以更快的 R-CNN 为框架。
- 当使用额外的训练数据时,DPN 在分类和本地化任务中也获得了胜利。
- 排行榜:http://image-net.org/challenges/LSVRC/2017/results
4.5.ILSVRC 2017 对象检测
Visualization
参考
【2017 NIPS】【DPN】
双路径网络
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(有)(什)(么)(情)(况)(呢)(?)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(是)(这)(些)(人)(,)(还)(是)(这)(些)(人)(,)(还)(没)(有)(什)(么)(好)(的)(情)(情)(况)(,)(还)(是)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNMR-CNN&S-CNNDeepID-NetCRAFTR-FCN】 [ DSSD ] [ 约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3 ] [ FPN ] [ 视网膜网 ] [ DCN ]
语义切分 FCNde convnetdeeplab v1&deeplab v2CRF-RNN】SegNet】parse netdilated netPSPNetdeeplab v3]
生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道[V-Net]
实例分割 [SDS[超列 ] [ 深度掩码 ] [ 锐度掩码 ] [ 多路径网络][MNC][Instance fcn][FCIS
超分辨率 [Sr CNN][fsr CNN][VDSR][ESPCN][红网][DRCN][DRRN][LapSRN&MS-LapSRN][srdensenenet
人体姿态估计
深度姿态汤普逊·尼普斯 14
综述:DRN——扩张残差网络(图像分类和语义分割)
使用扩展卷积、改进的 ResNet,用于图像分类、图像定位和语义分割
在这个故事中,回顾了普林斯顿大学和英特尔实验室的 DRN(扩张剩余网络)。在 2016 年 ICML 发表了用于语义分割的 DilatedNet 之后,作者发明了 DRN,它不仅可以改善语义分割,还可以改善图像分类,而不增加模型的深度或复杂性。发表在 2017 CVPR 上,引用 100 余次。( Sik-Ho Tsang @中)
概述
- 扩张卷积
- 扩张的原因
- 扩张的剩余网络(DRN)
- 本地化
- 去网纹
- 结果
1。扩张卷积
- 为简单起见,我仅引用中的方程式:
Standard Convolution (Left), Dilated Convolution (Right)
- 左边的是标准卷积。右边的是扩张的回旋。我们可以看到在求和的时候,就是 s+ l t=p 我们在卷积的时候会跳过一些点。
- 当 l =1 时,为标准卷积。
- 当l1 时,为扩张卷积。
Standard Convolution (l=1) (Left) Dilated Convolution (l=2) (Right)
- 以上举例说明了 l =2 时展开卷积的例子。我们可以看到感受野比标准感受野大**。**
l=1 (left), l=2 (Middle), l=4 (Right)
- 上图显示了更多关于感受野的例子。
2。扩张卷积的原因
- 研究发现,在网络末端获得的输出特征图很小的情况下,语义切分的准确率会降低。
- 在 FCN 中,也说明了当需要 32 倍上采样时,我们只能得到一个非常粗略的分割结果。因此,需要更大的输出特征图。
- 一种简单的方法是简单地去除网络中的子采样(步长)步骤,以增加特征图的分辨率。然而,这也减少了感受野,严重减少了上下文的数量。对于更高分辨率来说,感受野的这种减小是不可接受的代价。
- 由于这个原因,使用扩张的卷积来增加较高层的感受野,补偿由于去除二次采样而引起的感受野的减少。
- 并且发现使用扩张卷积也有助于本文的图像分类任务。
3.扩张残差网络(DRN)
- 在本文中,使用 d 作为膨胀因子。
- 当 d =1 时,为标准卷积。
- 当d1 时,为扩张卷积。
原件 ResNet
- 在原 ResNet 中,最后 2 组卷积层 G4 和 G5 使用 3×3 标准卷积( d =1):
- 由于最大池化,特征地图变得越来越小。
- 输出特征图只有 7×7 的大小。这并不像上一节提到的那样好。
DRN
- 在 DRN,在 G4 处,使用 d =2:
- 在 G5 处,对于第一次卷积( i =1),仍然使用 d =2:
- 在 G5 ,对于剩余的卷积(I>1),使用 d =4:
- 最后, G5 在 DRN 的产量是 28×28,比原来的 ResNet 产量大很多。
4.本地化
- 对于图像分类任务,最后,有一个全局平均池,然后是 1×1 卷积和 softmax。
- 为了进行本地化配置,只需简单地删除普通池。不涉及训练或参数调整。准确的分类 DRN 可以直接用于定位。
5.去网纹
A Gridding Artifact
- 如上所示,当特征图的高频成分高于扩展卷积的采样速率时,会出现网格伪像。
DRN-A (Top) DRN-B (Middle) DRN-C (Bottom)
- DRN-A :只有扩张卷积的,有网格状伪影。
- DRN-B :发现第一次最大汇集操作导致高振幅高频率激活。因此,**第一最大池层由 2 个残差块(4 个 3×3 卷积层)代替,以减少网格伪影。**网络末端还增加了 2 个剩余块。
- DRN-C :在网络的末端,膨胀逐渐降低到去除混叠伪影,即**2-膨胀卷积后跟 1-膨胀卷积。**然而,神器仍然在这里,因为它可以通过残余连接传递。因此,相应的剩余连接被移除。
Activation Maps of ResNet-18 and Corresponding DRNs
- 上面显示了一个可视化。
- DRN-A-18 :卷积扩张,存在网格状伪影。
- DRN-B-26 :用卷积代替最大池,特征图有更少的伪影。
- DRN-C-26 :随着逐渐变小的扩张卷积和去除残留连接,伪影进一步减少。
Feature Map Visualization at Different Levels in DRN-C-26 (The highest average activation at each level is shown)
6.结果
6.1.ImageNet 上的图像分类
Top-1 & Top-5 Error Rates on ImageNet Validation Set
- DRN-A-18 和 DRN-A-34 在 1-crop top-1 精度上分别领先ResNet-18和ResNet-342.43 和 2.92 个百分点。(在 ResNet-34 到 DRN-A-34 的情况下,误差相对减少 10.5%。)
- DRN-A-50 在单作物 top-1 精度上比 雷斯内特-50 高出一个百分点以上。
- 将一个ResNet直接转化为一个 DRN-A ,完全不改变模型的深度或容量,显著提高分类精度。
- 每只 DRN-C 的表现都明显优于相应的 DRN-A
- DRN-C-26 是从 DRN-A-18 衍生而来的,其精确度与更深的 DRN-A-34 相当。
- DRN-C-42 是从 DRN-A-34 衍生而来的,其精确度与更深的 DRN-A-50 相当。
- DRN-C-42 接近于 ResNet-101 的精确度,尽管后者更深 2.4 倍。
6.2.ImageNet 上的对象定位
- 这里,基于特征图激活值执行弱监督对象定位。
- C =1000,因为它是一个 1000 级的 ImageNet 数据集。
- 以 C 分辨率的响应图 W × H ,f( c , w , h )为位置响应( w , h ),各位置的优势类为 g ( w , h )。边界框的集合是 Bi 其中 t 是激活阈值。并且在 Bi 中选择最小包围盒 bi 。
- 对于地面实况框大于 0.5 的 IoU,它被认为是准确的。
Top-1 & Top-5 Localization Error Rates on ImageNet Validation Set
- DRNs 优于相应的ResNet车型,说明了基本 DRN 建设的好处。
- DRN-C-26 的性能明显优于 DRN-A-50,尽管其深度要低得多。这表明去网格方案对于需要更详细的空间图像分析的应用特别有益。
- DRN-C-26 也胜过雷斯内特-101 。
6.3.城市景观的语义分割
- 对于 ResNet-101 ,它得到了 66.6%的平均 IoU。
- DRN-C-26 比 ResNet-101 基准高出一个多百分点,尽管深度低了 4 倍。
- 尽管深度低 2.4 倍,但 DRN-C-42 型号的性能比 ResNet-101 基线高出 4 个百分点。
- DRN-C-26 和 DRN-C-42 都优于 DRN-A-50,这表明去网格结构对密集预测任务特别有利。
Cityscape Dataset
- 如上所示,DRN-A-50 的预测被网格伪影破坏,即使该模型是在密集像素级监督下训练的。
- 相比之下,DRN-C-26 的预测不仅更准确,而且更清晰。
6.4.使用 DRN-D 获得更多结果
- 在作者的 GitHub 中也有一个 DRN-D,它是 DRN-C 的简化版本
Classification error rate on ImageNet validation set and numbers of parameters.
Classification error rate on ImageNet validation set and numbers of parameters
所有的 DRN 也可以获得较低的错误率,而有较少的参数数目(较小的模型)。
*Segmentation mIoU and number of parameters ( trained with poly learning rate, random scaling and rotations.)
- DRN-D-22 以较少的参数达到 68%的 mIoU,与 DRN-C-26 相同,但高于 DRN-A-50。
不是逐渐降低内部表示的分辨率直到场景的空间结构不再可辨,而是在最终输出图层中始终保持高空间分辨率。图像分类精度提高,最终 DRN 优于最先进的 ResNet 。
参考
【2017 CVPR】【DRN】
散漫残网
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(要)(到)(这)(些)(人)(,)(我)(们)(就)(不)(想)(要)(到)(这)(些)(人)(里)(来)(,)(我)(们)(都)(不)(想)(到)(这)(些)(人)(了)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】R-FCN】离子多路径网NoC yolo 9000[yolov 3][FPN][retina net][DCN]
语义切分 FCNde convnetdeeplab v1&deeplab v2SegNet】parse netdilated netPSP netdeeplab v3
生物医学图像分割 [ 累计视觉 1 ] [ 累计视觉 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet]
实例分段 DeepMask SharpMask MultiPathNet MNC InstanceFCN FCIS 】
)(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。
综述:DRRN——深度递归残差网络(超分辨率)
多达 52 个卷积层,具有全局和局部剩余学习,性能优于 SRCNN、FSRCNN、ESPCN、VDSR、DRCN 和 RED-Net。
Digital Image Enlargement, The Need of Super Resolution
在这个故事里, DRRN(深度递归剩余网络)是回顾。用全局残差学习(GRL) 和多路径模式局部残差学习(LRL) ,加上递归学习在增加深度的同时控制模型参数,最多可以达到 52 层。DRRN 明显优于最先进的方法,如 SRCNN 、 FSRCNN 、 ESPCN 、 VDSR 、 DRCN 和红网。并且发表在 2017 CVPR 上 100 多篇引用。( Sik-Ho Tsang @中)
概述
- DRRN 架构
- 残差单元的数量(U) &递归块的数量(B)
- 消融研究
- 结果
1.DRRN 架构
Comparison of Different Architectures
- ResNet : 残差单位用于预测。对于每个残差单元,有使用两个卷积的身份映射(即跳过连接)和残差映射。
- VDSR :残差学习用于输入低分辨率(LR)图像和输出高分辨率(HR)图像之间。这是一个全局剩余学习(GRL) 。剩余分支中叠加了 20 层 3×3 卷积。可获得 41×41 的大感受野。而 VDSR 实际上是 DRRN 的一个特例。(后面会提到)
- DRCN :还有一种可以当作 GRL 的跳接。在剩余分支,使用递归卷积,即所有卷积共享参数(绿色)。每个递归卷积的输出负责生成 HR 图像。并且所有的 HR 图像被轻量级地组合以获得最终的输出。
- DRRN : GRL 由于在 VDSR 和 DRCN 中的有效性也被使用。在残差分支处,不使用 DRCN 、中的递归卷积,而是通过使用残差块内的递归卷积来使用一堆残差块,如上所示。因此,这里介绍多路径局部残差学习(LRL)。
2。残差单元的数量(U) &递归块的数量(B)
Number of Residual Units (U)
2.1.剩余单元数( U )
- U : 递归块中剩余单元的数量。 U ={1,2,3}的例子如上图所示。
- 注意,当 U 增加时,参数没有增加。因为参数是共享的**。**
- 并且使用预激活剩余单元,即 BN-ReLU-Conv ,而不是 Conv-BN-ReLU。这是建议在预激活 ResNet 中对原 ResNet 进行改进。
2.2.递归块数( B )
B=6, 6 Recursive Blocks (Left), U=3, 3 Residual Units in a Recursive Block (right)
- 上面显示了 B 的含义,即网络中使用了多少个递归块。
- 因此,可以根据 B 和 U 计算 DRRN d 的深度(卷积层数):
*d*=(1+2×*U*)×*B*+1
- 如果 U =0,DRRN 变为 VDSR 。
- 损失函数是标准 MSE:
3.消融研究
3.1.一些细节
- 训练集:来自杨的 91 幅图像,来自伯克利分割数据集的 200 幅图像,共 291 幅图像。
- 测试装置:装置 5、装置 14、BSD100 和 Urban100。
- 数据增加 : 翻转和旋转版本,即 7 个附加增加版本。比例放大也用于不同的比例(×2、×3 和×4)。
- 使用跨距为 21 的 31×31 面片。小批量是 128 个。
- 每个卷积层有 128 个滤波器,大小为 3×3。
- 在 d =20 的情况下,用 2 个 Titan X GPUs 训练 4 天。
- 双三次插值在进入网络之前首先被应用。
- 仅亮度分量。
- 图像边界附近的像素在评估前被裁剪。
3.2.硼和铀的研究
Various combinations of B and U (scaling factor ×3 on Set5)
- 通过将一个参数固定为 3,并将另一个参数从 1 改为 4 ,上图显示增加 B 或 U 会导致更深的型号 并获得更好的性能,这表明更深还是更好。
- 只要深度相近,型号就有可比性,如 B2U3 ( d = 15,k = 784K)和 B3U2 ( d = 16,k = 1,182K)分别达到 33.76 和 33.77 dB。(k= #参数)
- 通过固定一个参数为 1,改变另一个参数来构造与 d = 52 的网络,我们可以得到 B1U25 ( k = 297K)和 b17u 1(k= 7375k)。对于 B1U25,只有一个具有 25 个剩余单元的递归块被递归学习。对于 B17U1,堆叠 17 个递归块,无需任何递归学习。
- 还构造了 B3U8 ( d = 52,k= 1182k)。
- 所有的 B17U1、B3U8、B1U25,具有 d =52,具有相似的性能。
- B1U25 使用的参数要少得多。因此,它被视为最佳模型。
3.3.DRRN 变体
DRRN Variants (NS: No Sharing of Weights, C: Chained, Not Multi-path)
- DRRN_NS_C :有 LRL 但没有多路径递归学习,33.92dB
- DRRN_NS : DRRN 但无重量分担,33.97dB。
- DRRN_C: DRRN 但不使用多径,仅在剩余分支处使用链式卷积,33.95dB。
- DRRN : 33.99dB,这说明所有组件对改善结果都很重要。
4.结果
4.1.与最先进模型的比较
Benchmark Results Using PSNR and SSIM
- DRRN_B1U9 ( d = 20, k = 297K):与 VDSR 和 DRCN 深度相同,但参数更少。
- 在所有数据集和缩放因子中,DRRN_B1U9 和 DRRN_B1U25 都优于所有方法,包括 SRCNN 、 VDSR 和 DRCN 。
- 特别是在 Urban100 数据集上,DRRN 大幅领先所有方法。
Benchmark Results Using Information Fidelity Criterion (IFC) metric
- 还评估与感知分数相关的度量信息保真度标准(IFC) 。
- 这里, VDSR 由作者重新实现,使用 BN。(原 VDSR 不使用 BN。)
- DRRN 仍然优于所有方法。
- 20 层 B1U9 DRRN 在 Titan X GPU 上处理 288×288 图像需要 0.25 秒。
PSNR for scale factor ×3 on Set5 and Set14
- 就参数数量而言,DRRN 具有最高的 PSNR,同时由于权重的共享而具有相对较少的参数。
4.2.定性结果
- DRRN 可以获得更清晰的边缘,而其他边缘则很模糊。
GRL 和 LRL 让我想起了 RoR 和 U-Net+ResNet ,在这些地方使用了长短跳线连接来提高精度。但是当然,也有不同之处,例如,对于 LRL,跳过分支在这里总是接受相同的输入,并且在剩余分支的卷积中共享权重。
参考
【2017 CVPR】【DRRN】
通过深度递归残差网络的图像超分辨率
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(们)(还)(不)(想)(到)(这)(些)(人)(们)(,)(我)(们)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(们)(还)(没)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(里)(去)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(里)(去)(了)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(到)(这)(里)(来)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】R-FCN】离子多路径网NoC
语义切分 FCNde convnetdeeplab v1&deeplab v2parse net】dilated netPSP netdeeplab v3
生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet
实例分割
[深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS
超分辨率 Sr CNNfsr CNNVDSRESPCN红网DRCN
复习:FC-DenseNet——一百层提拉米苏,全卷积 dense net(语义分段)
胜过 SegNet 、 DeconvNet 、 FCN 、 DeepLabv1 、 DilatedNet
在中,简要介绍了由蒙特利尔学习算法研究所、蒙特利尔理工大学、Imagia 公司和计算机视觉中心开发的全卷积 DenseNet (FC-DenseNet) 。 DenseNet 最初用于图像分类。使用 DenseNet 比使用 ResNet 有几个优点:
- 参数效率 : DenseNets 在参数使用上更有效率。
- 隐式深度监督 : DenseNets 由于到架构中所有特征映射的路径较短,因此可以执行深度监督
- 特征重用:所有的层都可以很容易地访问它们之前的层,使得重用之前计算的特征地图的信息变得很容易。
因此,在本文中, DenseNet 被修改用于语义分割。并发表在 2017 CVPRW 上,被 300 多次引用。( Sik-Ho Tsang @ Medium)
概述
- 审查dense net连接
- FC-DenseNet 架构
- 实验
**1。**审查DenseNet连接
Standard Convolution
- 标准卷积 : xl 通过对前一层 xl -1 的输出应用非线性变换 Hl 来计算。
Residual Learning
- 残差学习 : ResNet 引入了一个残差块,它将一个层的输入到输出的同一性映射相加。
DenseNet Connection
2。FC-DenseNet 架构
FC-DenseNet
One Layer (Lefft), Transition Down (TD) (Middle), Transition Up (TU) (Right)
- 在 FC-DenseNet 中,仅对前一密集块创建的特征图进行上采样。否则,将导致非常大的计算量和参数数量。
- 这意味着,密集块的输入不会与其输出连接在一起。因此,转置卷积仅应用于由最后一个密集块获得的特征图,而不是到目前为止连接的所有特征图。
- 这导致合理的前 softmax 特征地图数量为 256。
- 跳过连接用于从下采样路径到上采样路径,就像 U-Net 或 FCN 类网络。
- 这个模型可以从零开始训练,不需要任何预训练。
Example of FC-DenseNet103
- 以上是 FC-DenseNet103 的详细情况。
- m 对应于一个块末端的特征图总数。
- c 代表班级人数。
3.实验
3.1.坎维德
Results on CamVid Dataset
- CamVid :用于城市场景理解的全分割视频数据集。有 367 帧用于训练,101 帧用于验证,233 帧用于测试。每个帧的大小为 360×480,其像素被标记为 11 个语义类别。
- FC-DenseNets 用 224×224 的作物和批量 3 进行训练。最后,用全尺寸图像对模型进行微调。没有时间平滑或任何后处理时间正则化。
- FC-DenseNet56 : 56 层,每密块 4 层,增长率 12。
- FC-DenseNet67 : 67 层,每密块 5 层,增长率 16。
- FC-DenseNet103 : 103 层,增长率 16。
- 经典采样:一种在上采样路径中使用标准卷积而不是密集块的架构。
- 结果显示了所提出的上采样路径相对于经典上采样路径的明显优势。特别是,据观察,未被代表的类别明显受益于 FC-DenseNet 架构,即标志、行人、栅栏、骑自行车的人在性能方面经历了重要的提升(从 15%到 25%)。
- FC-DenseNet 模型受益于更深的深度和更多的参数。
- FC-DenseNet 最终胜过了最先进的方法,如 SegNet 、 DeconvNet 、 FCN 、 DeepLabv1 和 DilatedNet 。
Visualization: Original (Left), Ground Truth (Middle), FC-DenseNet (Right)
3.2.盖特奇
Results on Gatech Dataset
- Gatech :几何场景理解数据集,由 63 个用于训练/验证的视频和 38 个用于测试的视频组成。
- 数据集中有 8 个类:天空、地面、建筑物、多孔(主要是树)、人类、汽车、垂直混合和主混合。
- FC-DenseNet103 模型在 CamVid 上进行预训练,删除了 softmax 层,并使用 224×224 的作物和批量 5 对其进行了 10 个时期的微调。
- FC-DenseNet103 从零开始,相对于之前发表的 2D 卷积、2D-V2V 的最新水平,在全局精度方面给出了 23.7%的令人印象深刻的改进。
- 此外,FC-DenseNet(仅用 2D 卷积训练)也实现了基于时空 3D 卷积(3D-V2V 预训练)的最先进模型的显著改善(3.4%的改善)。
参考
【2017 CVP rw】【FC-dense net】
百层提拉米苏:用于语义分割的全卷积 dense net
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(有)(什)(么)(情)(况)(呢)(?)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(是)(这)(些)(人)(,)(还)(没)(有)(什)(么)(好)(的)(情)(感)(,)(我)(们)(还)(没)(有)(什)(么)(好)(的)(情)(感)(,)(但)(我)(们)(还)(没)(有)(什)(么)(好)(好)(的)(情)(感)(。 )(我)(们)(都)(不)(想)(要)(让)(这)(些)(人)(都)(有)(这)(些)(情)(况)(,)(我)(们)(还)(不)(想)(要)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(就)(是)(这)(些)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(。 )(我)(们)(都)(不)(知)(道)(,)(我)(们)(都)(是)(很)(强)(的)(,)(我)(们)(都)(是)(很)(强)(的)(对)(对)(对)(对)(起)(来)(,)(我)(们)(都)(是)(很)(强)(的)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(对)(
物体检测 [ 过食 ] [ R-CNN ] [ 快 R-CNN ] [ 快 R-CNN][MR-CNN&S-CNN][DeepID-Net][CRAFT][R-FCN][离子 [G-RMI][TDM][SSD][DSSD][yolo v1][yolo v2/yolo 9000][yolo v3][FPN[retina net[DCN
语义切分[FCN][de convnet][deeplabv 1&deeplabv 2][CRF-RNN][SegNet][parse net][dilated net][DRN][RefineNet][
生物医学图像分割[cumevision 1][cumevision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net][M FCN]
实例分割 [ SDS ] [ 超列 ] [ 深度掩码 ] [ 清晰度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS
)( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )(
DeepPose Tompson NIPS’14 Tompson CVPR’15 CPM
回顾:FCIS——2016 年 COCO 细分(实例细分)冠军
完全卷积的实例感知语义分段,具有位置敏感的内部/外部得分图
在这个故事中,清华大学和微软亚洲研究院的 FCIS(全卷积实例感知语义分割)进行了回顾。这是第一个完全卷积的端到端实例分段解决方案。通过引入位置敏感的内部/外部得分图**,卷积表示被检测和分割子任务完全共享。获得了高精度和高效率。**
最终,FCIS 在 2016 年 COCO 分段挑战赛中获得第一名,准确率相对高出第二名 12%。它也在那一刻在 2016 COCO 检测排行榜上排名第二。它最初被命名为翻译感知的完全卷积实例分割(TA-FCN) 。
在 2015 年 COCO 分割挑战赛中获得第一名的 MNC ,每张图像花费 1.4 秒,其中 80%的时间都花在最后的每个 ROI 步骤上。 FCIS 使用ResNet-101(英伟达 K40)每张图像只需 0.24s,比MNC**快很多。**你可能认为推理时间仍然很慢,但是,COCO 分割挑战迫切需要最先进的地图。因此,FCIS 在减少推断时间的同时进一步提高地图并获得第一名已经很令人惊讶了。最终发表在 2017 CVPR 超过 100 次引用。( Sik-Ho Tsang @中)
概述
- 位置敏感内/外得分图
- FCIS 建筑
- 消融研究
- 与最先进方法的比较
1.位置敏感的内/外得分图
k×k Position-Sensitive Inside/Outside Score Maps with k=3 here
- 如果你已经知道了R-FCN&instance fcn,你会注意到他们也制作了类似于上面 FCIS 的分数地图。 R-FCN 产生用于对象检测的正面敏感得分图,而 实例敏感得分图 产生用于生成分段建议的实例敏感得分图。如果你已经理解了R-FCN&instance fcn,就更容易理解位置敏感的内外得分图。
- 在上面的例子中,**每个评分图负责预测对象实例的相对位置。**每个评分图负责捕捉对象实例的相对位置。例如:左上分数图负责捕捉对象实例的左上部分。组装后,可以生成分离的人物面具。
- 与R-FCN&instance fcn 不同的是有两套比分图。
- **为了组合 ROI 内部图,在每个正敏感内部得分图上捕捉左上、中上、右上…和右下部分。**类似于阳性敏感外评分图。
- 最后,生成两个得分图。一个是 ROI 内图。一个是图外 ROI。
Two Pathways
- 基于这两幅图,有两条路径,一条用于实例遮罩,逐像素 softmax 用于分割损失。一种是针对类别似然度,通过平均汇集所有像素的似然度来获得检测分数。因此,卷积表示对于检测和分割子任务是完全共享的。
- 一些例子:
2.FCIS 建筑
FCIS (Fully Convolutional Instance-aware Semantic Segmentation) Architecture
- ImageNet 预训练的ResNet-101作为主干,用 h ole 算法(DeepLab/dilated net)将 conv5 的第一个块的步距从 2 增加到 1。因此,有效特征步距增加到 16。(即增加输出特征图尺寸。)
- 对于区域提议网络(RPN) ,为了与 MNC 进行公平的比较,RPN 被添加到 conv4 层之上,这与MNC的方式相同。
- 从 conv5 特征图中,使用 1×1 卷积生成2k×(C+1)分数图。( k =7 最后, C 类加 1 背景)
- ROI 汇集在这些评分图上执行。
- 对于每个 ROI ,获得 2 个( C +1)图。**一个( C +1)是图内 ROI。一个( C +1)是图外 ROI。**然后我们可以计算分割损失和检测分数。
- 和 R-FCN 一样,还有一个兄弟 1×1 卷积用于包围盒(bbox)回归。
- 在推断期间,RPN 生成 300 个具有最高分数的 ROI。然后,它们通过 bbox 回归分支,产生另外 300 个 ROI。
- IoU 阈值 0.3 的非最大抑制(NMS)用于滤除高度重叠的 ROI。在剩余 ROI 的池中,对于每个 ROI,我们获得其分类分数和所有类别的前景遮罩(以概率计)。
- 在训练期间,如果 IoU 与最接近的地面实况大于 0.5,则 ROI 为正。有 3 个损失项 : 一个超过 C +1 类别,一个仅地面实况类别的 softmax 分割损失,以及一个 bbox 回归损失。后两者仅对正 ROI 有效。
- 因为每 ROI 计算仅涉及 k 细胞分割、分数图复制、softmax、max 和平均池。它既简单又快捷。
3.消融研究
3.1. FCIS 变种
FCIS Variants on PASCAL VOC 2012 Val Set
- 幼稚 MNC : MNC ,59.1% mAP@0.5。
- inst fcn**+R-FCN**:使用 InstanceFCN 进行分段提议,使用 R-FCN 预测对象类别并回归包围盒,62.7% mAP@0.5。
- FCIS(平移不变量):即 k =1 的 FCIS,52.5% mAP@0.5,可见位置敏感的内外得分图很重要。
- FCIS(单独评分图):第一套 k 评分图仅用于分割,第二套仅用于分类,63.9% mAP@0.5,说明需要联合制定。
- FCIS : 65.7% mAP@0.5,联合制定有效。
3.2.不同深度的 ResNet
ResNet with Different Depths on COCO test-dev set
- 虽然 ResNet-152 具有更高的 mAP,但是 ResNet-101 用于与最先进的方法进行比较。
3.3.OHEM(在线硬示例挖掘)
Comparison with MNC on COCO test-dev set with/without OHEM
- 在 N 建议中,只有具有最高损失的顶部BROI 用于反向传播。OHEM 将 MNC 的训练时间从 2.05 秒大幅提高到 3.22 秒,OHEM 对 FCIS 的训练时间影响不大,但改善了地图。这是因为每 ROI 计算对于 FCIS 来说是便宜的。
4.与最先进方法的比较
4.1.COCO 细分挑战
COCO Segmentation Challenge Entry
- FAIRCNN :其实是 2015 年第二名 MultiPathNet 的队名。
- mnc++:2015 年获得第一名的 MNC 提交结果。
- G-RMI:2016 年第 2 名,由谷歌研究和机器智能团队。(该方法不是在对象检测挑战中获胜的方法。)
- FCIS 基线:已经比多路径和 MNC 好了。
- +多尺度测试:使用测试图像金字塔,短边为{480,576,688,864,1200,1400}像素进行测试。
- +水平翻转:水平翻转图像,再次测试,然后平均结果。
- +多尺度训练:应用与多尺度推理相同尺度的多尺度训练。
- +集合:集合 6 个网络。
- 最后,具有上述技巧的 FCIS 比 G-RMI 高 3.8%(相对地高 11%)。
4.2.COCO 检测排行榜
- 通过将实例遮罩的包围盒作为检测到的包围盒,在 COCO 测试开发集上实现了 39.7%的物体检测准确率,在当时的 COCO 物体检测排行榜上名列第二。
4.3.定性结果
参考
【2017 CVPR】【FCIS】
全卷积实例感知语义分割
我的相关评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】R-FCN】离子多路径网NoC
语义切分 FCNde convnetdeeplab v1&deeplab v2】parse net】dilated netPSPNet]
生物医学图像分割
实例分割 [ 深度掩码 ] [ 清晰度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ]
综述:FPN —特征金字塔网络(目标检测)
超越单一模式的参赛作品,包括 COCO 检测挑战赛冠军、G-RMI 和 MultiPathNet
在这篇论文中,【FPN】(特征金字塔网络),由**【脸书】AI Research(FAIR)****康奈尔大学和康奈尔理工**共同评述。通过在卷积神经网络(CNN)中引入一个用于构建特征金字塔的简洁而简单的框架,与几个强基线和竞争获胜者相比,如 G-RMI 、 MultiPathNet 和 ION ,表现出了显著的改进。与 DeepMask 、 SharpMask 和 InstanceFCN 相比,FPN 拥有更高的分段提议 AR。是一篇 2017 CVPR 论文,引用 700 多篇。( Sik-Ho Tsang @中)
COCO Detection and Segmentation Challenge
涵盖哪些内容
- 文学中的各种建筑
- 特色金字塔网络(FPN)
- FPN 地区提案网络(RPN)
- FPN 探测网
- 消融实验
- 与最先进方法的比较
1.文学中的各种建筑
Different Architectures for Detection
(一)特征化图像金字塔
- 在手工设计的时代,它被大量使用。
(b)单一特征地图
- 这是一个标准的 ConvNet 解决方案,对一个单一的输入图像有预测在网络的末端。
©金字塔特征层次
- 在每一层,就像 SSD 一样进行预测。它重用了前向过程中计算的不同图层的多尺度特征地图,因此是免费的。
- 然而,它错过了重用特征层次的高分辨率地图的机会,因此错过了对小物体的检测。
(d)特征金字塔网络
- 它通过自上而下的路径和横向连接将低分辨率、语义强的特征与高分辨率、语义弱的特征结合起来。
- 这种特征金字塔在所有级别上都具有丰富的语义,并且可以从单个输入图像尺度快速构建,从而不会牺牲表示能力、速度或内存。一些并发作品如也采用这种方式。
(e)类似架构
2。特征金字塔网络(FPN)
Feature Pyramid Network (FPN)
2.1。自下而上路径
- 自底向上的路径是主干通信网的前馈计算。定义了一个金字塔等级用于每个阶段。每个阶段的最后一层的输出将被用作通过横向连接来丰富自顶向下路径的参考特征图集。
2.2。自上而下的路径和横向连接
- 较高分辨率的特征是从较高金字塔等级向上采样的空间上更粗糙但语义上更强的特征图。更具体地说,为了简单起见,使用最近邻将空间分辨率上采样 2 倍。
- 每个横向连接合并来自自下而上路径和自上而下路径的相同空间大小的特征地图。
- 具体来说,来自自底向上路径的特征图经历 1×1 卷积以降低通道维度。
- 并且来自自下而上路径和自上而下路径的特征图通过逐元素添加来合并。
2.3.预言;预测;预告
- 最后,**在每个合并后的图上附加一个 3×3 的卷积,生成最终的特征图,这是为了减少上采样的混叠效应。**这最后一组特征地图称为{P2,P3,P4,P5},分别对应{C2,C3,C4,C5},它们的空间大小相同。
- 因为金字塔的所有级别都像在传统特征化图像金字塔中一样使用共享的分类器/回归器,所以输出 d 处的特征维度固定为 d = 256。因此,所有额外的卷积层都有 256 通道输出。
3。FPN 地区提案网络(RPN)
- 在fast R-CNN中的原始 RPN 设计中,在密集的 3×3 滑动窗口上评估一个小子网,在单尺度卷积特征图的顶部,执行对象/非对象二元分类和边界框回归。
- 这是通过一个 3×3 卷积层来实现的,其后是用于对象/非对象分类和回归的两个兄弟 1×1 卷积,我们称之为网络头。
- 此处,RPN 中的单比例尺要素地图被 FPN 所取代。因此,没有必要在特定层上设置多尺度锚盒。
- 每个级别都有一个标度分配给每个级别。形式上定义锚点分别在{P2,P3,P4,P5,P6}上有{ T16 }个{32,64,128,256,512 }像素的区域。
- 并且在每个级别,使用{1:2,1:1,2:1}的多个纵横比。
- 如果对于给定的基础事实框,锚具有最高的 IoU,或者对于任何基础事实框,其 IoU 超过 0.7,则锚被分配正标签,如果对于所有基础事实框,其 IoU 低于 0.3,则锚被分配负标签。
- 头部的参数在所有特征金字塔等级中共享。
4.探测网络的 FPN
- 在fast R-CNN中的原始检测网络中,使用了单尺度特征图。
- 这里,为了检测对象,需要将不同尺度的 ROI 分配给金字塔等级。
- 形式上,宽宽高高(在网络的输入图像上)的 ROI 被分配到我们的特征金字塔的层次 Pk 上,通过:
- 使用 224,因为这是标准的 ImageNet 预训练大小。
- 而更快的 R-CNN 使用 C4 作为单尺度特征图, k 0 设置为 4。
- 因此,如果 224×224,k = 4。我们用 P4。
- 如果 112×112,k = 3。它被映射到 P3 的更高分辨率级别。
- 预测器头部(在快速 R-CNN 中,头部是特定于类别的分类器和包围盒回归器)被附加到所有级别的所有 ROI。同样,无论级别如何,磁头都共享参数。
- 采用 RoI pooling 提取 7×7 特征,并在最终分类和包围盒回归层之前附加两个隐藏的 1024 维全连通(fc)层。
5。消融实验
5.1.RPN 的烧蚀实验
Bounding box proposal results of RPN on the COCO minival set
5.1.1.与基线的比较
- (b)使用 conv5 与(A)使用 conv4 相比没有优势:单个更高级的特征地图是不够的,因为在更粗糙的分辨率和更强的语义之间存在权衡。
- ©将 FPN 放入 RPN 将 AR1k 提高到 56.3 ,比单一等级 RPN 基线提高了 8.0 点。
- 此外,小对象(AR1ks)上的性能大幅提升了 12.9 分。
- 因此,RPN 上的 FPN 对目标尺度变化具有鲁棒性。
5.1.2.自上而下浓缩
- (d)是 FPN,但没有自上而下的路径。通过这种修改,1×1 横向连接后面跟着 3×3 回旋被附加到自底向上的金字塔上。它模拟了重用金字塔特征层次的效果。(即第一幅图中©的架构)
- 与 FPN © 相比的结果稍逊一筹。
- 据推测,这是因为在自下而上的金字塔(b) 上,不同层次之间存在很大的语义鸿沟,特别是对于非常深的结果网。
- 还评估了不共享磁头参数的(d)的变体,但是观察到类似的性能下降。
5.1.3.横向连接
- (e),没有 1×1 横向连接的自上而下的特征金字塔。这个自上而下的金字塔具有很强的语义特征和精细的分辨率。
- 有人认为这些特征的位置并不精确,因为这些地图已经过多次降采样和升采样。
- ©中的 FPN 的 AR1k 得分比(e)高 10 分。
5.1.4.金字塔表示法
- **(f),头部被附加到 P2 的最高分辨率、强语义特征地图上。**所有锚点都被分配到 P2 特征地图。
- 这个变量比基线好,但比 FPN 差。
5.2.探测网络烧蚀实验
Object detection results of detection network on the COCO minival set
- 消融是在一组固定的建议上进行的。FPN 为 RPN 计算的建议被冻结。检测网络和 RPN 之间的特征是不共享的。
- 相对于 conv4 (a)上的基线,FPN ©将 AP 提高了 2.0,将小物体 AP 提高了 2.1。
- 移除自上而下的连接(d)或移除横向连接(e)会导致较差的结果。
- **去除自上而下的连接(d)会显著降低精度。**在高分辨率地图上使用低级特征会有问题。
- 使用 P2 (e)的单一最精细比例特征地图,其结果(33.4 AP)比 FPN ©稍差。
5.3.检测网络和 RPN 的一致主干架构
Object detection results with shared features on the COCO minival set
- RPN 和检测网络都使用一致的主干架构。(但尚未共享功能)
- FPN ©比这个强基线好 2.3 点 AP 和 3.8 点 AP@0.5。(( a)和(b)中的基线优于 ResNet 中显示的基线。)
5.4.检测网络和 RPN 的共享功能
Object detection results with shared features using ResNet on the COCO minival set
- 共享要素可以略微提高精确度。特性共享也减少了测试时间。FPN 在单个 NVIDIA M40 GPU 上对 ResNet-50 的每幅图像的推理时间为 0.148 秒,对 ResNet-101 的推理时间为 0.172 秒。
6。与最先进方法的比较
6.1.可可检测挑战
Comparisons of single-model results on the COCO detection benchmark
- 在测试开发集上,我们的方法比现有的最佳结果增加了 0.5 点的 AP (36.2 对 35.7)和 3.4 点的 AP@0.5 (59.1 对 55.7)。
- G-RMI:2016 年冠军。
- 更快的 R-cnn++:使用更快的 R-CNN 、 ResNet 和NOC的 2016 年获胜者。
- ION:2015 年亚军,它使用了修改的 IRNN 和跳过池来提取多个尺度和抽象层次的信息。
- FPN 在这里没有利用许多流行的改进,如迭代回归、硬负挖掘、上下文建模、更强的数据扩充等。
6.2.扩展:细分建议
FPN for object segment proposals
Instance segmentation proposals evaluated on the first 5k COCO val images
- fpn 按照深度掩码 / 清晰度掩码框架生成分割建议。
- windows 上的 MLP,用于生成密集的对象片段,输出维度为 14×14 掩码和对象分数。
- 与 DeepMask 、 SharpMask 和 InstanceFCN 相比,FPN 比这些方法的精度高出 8.3 个百分点以上,而在小物体上的精度几乎是后者的两倍。
- 现有的掩模建议方法是基于密集采样的图像金字塔,使得它们在计算上很昂贵。
- FPN 以每秒 6 到 7 帧的速度运行要快得多。
尽管 ResNet 和fast R-CNN卓有成效,但 FPN 在几个强劲的基线和竞赛获胜者方面仍有显著进步。
参考
【2017 CVPR】【FPN】
用于物体检测的特征金字塔网络
我的相关评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】R-FCN】离子多路径网NoC
语义切分 FCNde convnetdeeplabv 1&deeplabv 2】parse net】dilated netPSPNet]
生物医学图像分割
实例分割
[深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS
超分辨率 Sr CNNfsr CNNVDSRESPCN红网】
回顾:G-RMI——2016 年 COCO 检测(物体检测)冠军
检测架构选择指南:更快的 R-CNN、R-FCN 和 SSD
T 他的时间, G-RMI ,谷歌研究与机器智能,2016 年 MS COCO 检测挑战赛获得**第一名的人回顾。G-RMI 是参加挑战赛的队伍名称。这不是一个提议方法的名称,因为他们没有任何创新的想法,例如修改深度学习架构以赢得挑战。名为“现代卷积对象检测器的速度/精度权衡”的论文也给了我们一些提示,他们 **系统地研究了不同种类的对象检测器和特征提取器。具体来说:
- 3 个对象检测器(元架构) : 更快的 R-CNN 、 R-FCN 和 SSD
- 6 个特征提取器 : VGG-16 , ResNet-101 , Inception-v2 , Inception-v3 , Inception-ResNet-v2 和 MobileNet
**他们还分析了其他参数的影响,如输入图像大小和区域提议的数量。**最后,几个模特的合奏达到了最先进的效果,赢得了挑战。并发表在 2017 CVPR 上,引用 400 余次。( Sik-Ho Tsang @中)
概述
- 元架构
- 特征提取器
- 精度对时间
- 特征提取器的作用
- 对象大小的影响
- 图像尺寸的影响
- 提案数量的影响
- FLOPs 分析
- 内存分析
- 0.75 IOU 下的良好定位意味着所有 IOU 阈值下的良好定位
- 可可的最新检测结果
1.元架构
对象检测器在这里被称为元体系结构。调查了三种元架构:更快的 R-CNN 、 R-FCN 和 SSD 。
Abstract Architecture
- 它使用单个前馈卷积网络来直接预测类别和锚偏移,而不需要第二阶段的每建议分类操作。
- 在被称为区域提议网络(RPN) 的第一阶段中,图像由特征提取器(例如 VGG-16 处理,在一些选定的中间级别(例如“conv5”)的特征被用于预测类别不可知的盒子提议。
- 在第二阶段中,这些(通常为 300) 框提议被用于从相同的中间特征图(ROI 汇集)中裁剪特征,这些特征随后被馈送到特征提取器的剩余部分(例如,“fc6”后面跟着“fc7”),以便为每个提议预测类别和类别特定的框细化。
- 与更快的 R-CNN 类似的还有第一级中的 RPN 。
- 在第二阶段,使用正敏感得分图,以便在预测之前从最后一层特征中提取裁剪(ROI 合并)。这使得每个投资回报的运营成本变得非常低,因为几乎所有运营都是在投资回报池之前共享的。
- 因此,它通常以更快的运行时间实现了与更快的 R-CNN 相当的准确性。
2。特征提取器
尝试了六个特征提取器:VGG-16,雷斯网-101 ,盗梦空间-v2 ,盗梦空间-v3 ,盗梦空间-雷斯网-v2 和 MobileNetV1 。
Top-1 classification accuracy on ImageNet
- 不同的特征提取器,不同的层用于提取用于对象检测的特征。
- 对一些特征提取器进行了一些修改,例如,使用了扩展的卷积,或者使最大池步幅变小,以便在特征提取之后步幅大小不会太小。
3.精度与时间
Accuracy vs Time, The dotted Line is Optimality Frontier
Test-dev performance of the “critical” points along our optimality frontier
- 颜色:特征提取器
- 标记形状:元架构
3.1.一般观察
3.2.最优边界上的临界点
- 带 Inception-v2 和 MobileNet 的固态硬盘是速度最快的型号中最精确的。
- 忽略后处理成本, MobileNet 似乎比 Inception-v2 快大约一倍,但准确性稍差。
甜蜜点:R-FCNw/ResNet或 更快 R-CNNw/ResNet并且只有 50 个提案
最准确: 更快 R-CNNw/Inception-ResNetat stride 8
- 具有密集输出的更快 R-CNNInception-ResNet-v2模型在我们的最优边界上获得了最佳的可能精度。
- 然而,这些模型很慢,需要将近一秒的处理时间。
4.特征提取器的作用
Accuracy of detector (mAP on COCO) vs accuracy of feature extractor
5.物体大小的影响
Accuracy stratified by object size, meta-architecture and feature extractor, image resolution is fixed to 300
6.图像大小的影响
Effect of image resolution
- 将分辨率在两个维度上降低两倍会持续降低准确度(平均降低 15.88%),但也会将推断时间平均降低 27.4%。
- 高分辨率输入允许分辨小物体。
- 高分辨率模型在小对象上产生明显更好的贴图结果(在许多情况下是 2 倍),在大对象上也产生稍微更好的贴图结果。
7.提案数量的影响
Faster R-CNN (Left), R-FCN (Right)
我们可以在 RPN(第一阶段)输出不同数量的建议。提案越少,运行时间越快,反之亦然。
更快的 R-CNN
- Inception-ResNet ,有 300 个提案有 35.4%的 mAP,在只有 10 个提案的情况下依然可以有惊人的高准确率(29%的 mAP)。
- 最佳点可能是 50 个建议,在这里,我们能够获得使用 300 个建议的 96%的准确性,同时将运行时间减少 3 倍。
R-FCN
比较更快的 R-CNN 和 R-FCN
8.FLOPs 分析
FLOPs vs Time
- 对于更密集的块模型,如 ResNet-101 ,FLOPs/GPU 时间通常大于 1。
- 对于 Inception 和 MobileNet 型号,这个比率通常小于 1。
- 也许,因式分解减少了 FLOPs,但增加了更多的内存 I/O 开销,或者可能是当前的 GPU 指令(cuDNN)更适合密集卷积。
9.记忆分析
Memory (Mb) vs Time
- 与运行时间高度相关,更大更强大的特征提取器需要更多的内存。
- 与速度一样, MobileNet 是最便宜的,在几乎所有设置中需要不到 1Gb(总)的内存。
10。75 IOU 的良好定位意味着所有 IOU 阈值的良好定位
Overall COCO mAP (@[.5:.95]) for all experiments plotted against corresponding mAP@.50IOU and mAP@.75IOU
- mAP@.5 和 mAP@.75 性能几乎与 mAP@[.5:.95]完全线性相关。
- mAP@.75 与 mAP@[.5:.95]的相关性稍强(R > 0.99),因此,如果我们要在单个 IOU 阈值下用 mAP 替换标准 COCO 指标,IOU = .75 可能会被选中。
11.可可上最先进的检测结果
11.1.集合和多作物
Summary of 5 Faster R-CNN single models
- 由于 mAP 是 COCO 检测挑战的主要目标,因此最准确但耗时的更快的 R-CNN 被考虑。
- 不同的结果鼓励集合。
Performance on the 2016 COCO test-challenge dataset.
- G-RMI :将上述 5 个模型集合,多作物生成最终模型。它超过了 2015 年的冠军和 2016 年的第二名。
- 2015 年的胜者使用 ResNet + 更快的 R-CNN + NoCs 。(请看我对NoCsCOCO 挑战赛结果的点评。)
- Trimps-Soushen,2016 年第 2 名,使用更快的 R-CNN + ensemble 多个模型+其他论文的改进。(COCO challenge 上没有关于 Trimps-Soushen 的细节。)
- 注意:这里没有多尺度训练、水平翻转、框细化、框投票或全局上下文。
Effects of ensembling and multicrop inference.
- 第二排 : 6 个更快的 RCNN 型号,带 3 个 ResNet-101 和 3 个 Inception-ResNet-v2 。
- 第三行:本节第一个表中的不同集合结果。
- 因此,多样性是令人鼓舞的,与使用人工选择的集合相比,这确实有很大帮助。
- 集成和多作物比单一模式提高了近 7 个百分点。
11.2.来自 5 种不同型号的检测
Beach
Baseball
Elephants
参考
【2017 CVPR】【G-RMI】
现代卷积物体探测器的速度/精度权衡
我的相关评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNDeepID-Net】R-FCN】离子多路径网NoC
语义切分
[FCN][de convnet][deeplabv 1&deeplabv 2][parse net][dilated net][PSPNet]
实例分割 [ 深度掩码 ] [ 锐度掩码 ] [ 多路径网 ] [ MNC ] [ 实例中心 ]
回顾:GBD-网络/ GBD-v1 和 GBD-v2——2016 年国际地球物理遥感中心(物体探测)获奖者
门控双向网络,赢得 ILSVRC 2016 对象检测挑战赛
T 他的时代, GBD 网(门控双向网络),由香港中文大学(CUHK) 和 SenseTime 点评。GBD-Net 赢得了 ILSVRC 2016 目标检测挑战赛,在 2016 ECCV 中首次提出,引用超过 30 次。然后延伸发表在 2018 TPAMI ,引用 50 余次。( Sik-Ho Tsang @中)
在这个故事中,主要是扩展, 2018 TPAMI ,因为它被描述得更加详细。
概述
- 问题
- GBD-v1
- GBD-v2
- 其他技术
- 消融研究
- 与最先进方法的比较
1.问题
Potential Problems When We Classify the Object in a Candidate Box (Red) with Ground-Truth (Blue)
- (a) :候选框可以是兔子,也可以是仓鼠。
- (b) : b2 可能因 IoU 较小而被视为误报。
- ©和(d) :兔头不一定是兔子,可以是人。
- 因此,没有来自候选框的较大周围区域的信息,很难区分类别标签。
- 首先,候选框周围的上下文区域是一种自然的帮助。
- 此外,周围区域还提供关于背景和其他附近物体的上下文信息,以帮助检测。
- 来自周围区域的信息用于改进候选框的分类。
2.GBD-v1
2.1.总体框架
GBD-v1 Overall Framework
- 以上是 GBD-v1 的框架。
- 使用快速 R-CNN 管道。
- 首先,诸如选择性搜索(SS)的区域提议方法将生成一组区域提议/候选框。
- 在 ROI 合并之后,对于每个候选框,它都要经过建议的 GBD-v1。
- 最终的特征图用于分类和包围盒回归,如在快速 R-CNN 中使用的。
2.2.毅力
Inception-v2 as Backbone
- BN-Inception/Inception-v2用作特征提取的主干。
ResNet-269 as Backbone
- 后来, ResNet-269 也被用作主干。更好的骨干,更好的准确性。
2.3.不同分辨率和支持区域的投资回报池
ROI Pooling with Different Resolutions and Support Regions
- 使用候选框(红色),不同的分辨率和支持区域基于该框汇集在一起。
- 用 p = {-0.2,0.2,0.8,1.7}生成不同的区域。
2.4.使用门控双向结构的消息传递
Naive Network Without Message Passing
- 最简单的方法是使用不同的支持区域遍历网络进行分类,如上所示。
- 但实际上,它们也应该是相互关联的,因为它们观察的是同一个物体。有些东西可以互相帮助。
Network With Message Passing
- 因此,这里提出了双向网络。
- 一个方向是从小尺寸区域连接到大尺寸区域。
- 另一种是从大尺寸区域连接到小尺寸区域。
- 因此,来自不同地区的上下文可以使用双向结构相互帮助。
- ⨂是卷积,σ是 ReLU(不是 Sigmoid),cat()是串联。
- 然而,有时一个上下文区域可能对另一个上下文区域没有帮助,就像第一张图中有兔子头的人一样。
Network With Message Passing Using Gate Function
- 在消息传递之前引入 Gate 函数。
- 因此,引入了上下文相关的门函数。开关将根据环境打开或关闭。
- 门过滤器的尺寸是 3×3,而不是 1×1。
- Sigm 是 sigmoid 函数,是元素级乘积,G 是基于 sigmoid 的门函数。
- 当 G = 0 时,消息不被传递。
3.GBD-v2
3.1.GBD 的增强版
GBD-v2
- GBD 网络得到加强。
- 最大池用于合并来自 h i 和 h i 的信息。与 GBD-v1 相比,这可以节省内存和计算量。
- 另外,从 h⁰i 到 h i 还增加了一个身份映射层。常数 β 在相加前相乘。
4。其他技术
4.1.候选框生成
- CRAFT的改进版本用于生成候选框。
- 有 3 个版本。
- Craft-v1:Craft从 1000 级 ImageNet 预训。
- Craft-v2:Craft用于 GBD-v1,2016 ECCV 论文,但预训练自更快 R-CNN 使用的地区提案网(RPN)。
- Craft-v3:GBD-v2 使用的改进型 CRAFT ,训练时使用随机裁剪的 2018 TPAMI 论文,测试时使用多尺度金字塔。同样,阳性和阴性样本在 RPN 训练中是 1:1。使用 LocNet 添加了另一组建议。
4.2.其他人
- 多尺度测试:利用训练好的模型,在图像金字塔上计算特征图,图像的短边为{400,500,600,700,800},长边不大于 1000。
- 左右翻转:训练和测试都采用。
- 包围盒投票:使用 MR-CNN & S-CNN 中的包围盒投票。
- 非最大抑制(NMS)阈值:对于 ImageNet,NMS 阈值默认设置为 0.3。根据经验发现,0.4 是较好的阈值。
- 全局上下文:从预训练的网络来看,ImageNet 检测数据也是作为图像分类问题来处理的。这意味着 ROI 区域是整个图像。然后,这个 200 级图像分类分数被用于通过加权平均与 200 级对象检测分数相结合。
- 模型组合 : 6 个模型用于组合。
5.消融研究
5.1.多种分辨率的效果
The Effect of Multiple Resolutions Using Inception-v2 as Backbone
- 使用四种分辨率获得 48.9%的最高 mAP。
5.2.工艺版本
Recall Rate on ImageNet val2
- 对 Craft-v2 的修改,即 Craft-v3,提高了召回率,如上图所示。
5.3.不同的比例因子β
Different Scaling Factor β in Controlling the Magnitude of Message on ImageNet val2 Using Inception-v2 as Backbone
- 还测试了控制消息大小的不同比例因子 β 。 β = 0.1 有 53.6%的最佳贴图。
5.4.不同的深度模型作为主干
Different Deep Models as Backbone (“+I” = Pre-Activation ResNet with Identity Mapping, “+S” = Stochastic Depth (SD))
- Inception-v2 、 ResNet 、预激活 ResNet (+I)、随机深度 (+S)、 Inception-v3 (根据参考应该不是 v5)、 PolyNet 也尝试过。
- 更好的脊梁,更好的地图。
5.5.用于组装的 6 个深度模型
6 Deep Models for Ensembling
- 然而,不同的主干在不同的对象类别上具有不同的准确性。组装时,他们可以互相帮助。
- 最后选择以上 6 个模型,可以得到 66.9%的 mAP。
5.6.包括其他技术
Including Other Techniques
- 详情如上。通过以上技术,mAP 从 56.6%提高到 68%。
- 而 GBD 技术只能帮助将 mAP 从 56.6%提高到 58.8%,这实际上贡献了改进的一部分。
6。与最先进方法的比较
6.1.ImageNet val2 上的对象检测
Object Detection on ImageNet val2, sgl: Single Model, avg: Averaged Model (Ensembling)
- GBD-v2 在所有技术方面都超过了美国有线电视新闻网(R-CNN)、谷歌网(Google Net)、 DeepID-Net 和 ResNet 。
6.2.不使用外部数据进行训练的 ImageNet 测试集上的对象检测
Object Detection on ImageNet Test Set
- GBD-v2 优于许多最先进的方法,包括谷歌网、雷斯网、 Trimps-Soushen 和海康威视(2016 年亚军)。(也许以后有时间我会回顾一下海康威视。)
6.3.COCO 上的对象检测
Object Detection on MS COCO
为了提高性能,除了深度神经网络管道上的新颖想法或更好的主干,其他技术也很重要,如 5.6 节中所述,如本文中的区域提议方法、数据扩充、多尺度训练、多尺度测试、包围盒投票、全局上下文和模型集成。
参考
【2016 ECCV】【GBD 网/GBD v1】
门控双向 CNN 进行物体检测
【2018 TPAMI】【GBD-网/GBD-v1 & GBD-v2】
制作用于物体检测的 GBD-网
我以前的评论
)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(没)(有)(什)(么)(好)(的)(情)(情)(感)(。
物体检测 过食R-CNN快 R-CNN快 R-CNNMR-CNN&S-CNNDeepID-NetCRAFTR-FCN】 [ DSSD ] [ 约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3 ] [ FPN ] [ 视网膜网 ] [ DCN ]
语义切分 FCNde convnetdeeplab v1&deeplab v2CRF-RNN】SegNet】parse netdilated netPSPNetdeeplab v3
生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道[V-Net][3D U-Net]
实例分割 [SDS[超列 ] [ 深度掩码 ] [ 锐度掩码 ] [ 多路径网络][MNC][Instance fcn][FCIS
超分辨率 [Sr CNN][fsr CNN][VDSR][ESPCN][红网][DRCN][DRRN][LapSRN&MS-LapSRN][srdensenenet
人体姿态估计
深度姿态汤普逊·尼普斯 14