论文：Deeplab_v4

最新推荐文章于 2024-09-20 14:23:31 发布

xxiaozr

最新推荐文章于 2024-09-20 14:23:31 发布

阅读量3.3k

点赞数 1

分类专栏：论文文章标签：论文

本文链接：https://blog.csdn.net/xxiaozr/article/details/78565477

版权

论文专栏收录该内容

29 篇文章 0 订阅

订阅专栏

摘要：
1.使用artous卷积，在不增加参数的情况下增加 the field of view of filters。
2.提出ASPP，在多尺度上分割物体
3.impore the localization of object boundaries ，通过结合DCNN和probabilistic graphical.

DCNN应用于语义分割有三个困难：
1. 降低特征的分辨率
2. 多尺寸目标的存在
3. invariance 降低 localization 准确率
第一个困难，移除了DCNN最后几层max pooling 层的下采样操作，并且对之后所有的卷基层upsample the filters.
使用artous convolution recover了full resolution feature maps.
第二个困难，通常是对图片进行多尺度变换，但是这样会增加计算负荷，使用artous spatial pyramid pooling(ASPP).
第三个困难，采用skip-layers方法也可以，但是我们使用CRF，使用fully-connected CRF，可以取得fine edge detials.

整个model
这里写图片描述
将VGG-16 or ResNet-101对于分类任务的模型做一些改变
1. 将全连接层变成卷积层
2. 通过atrous convolution 提高feature resolution
3. 之后employ 双线性差值上采样到原始图片的resolution，之后输入到CRF

artous convolution
这里写图片描述
如图上面是普通的卷积操作，输入是 3，padding=1，经过kernel=3,stride=1 的卷积核操作后输出 3。
下面是artous卷积操作，输入是 5 ，padding =2 ,经过kernel =3 ，stride=1,rate =2 的 artous卷积操作输出 5。
artous卷积操作相当于 upsample 原来的卷积，中间用 0 值代替，虽然filter的size变大了，但是非零值的个数没有变，计算量还是相同的。
可以使用atrous convolution 在 a chain of layers 中，可以获得high resolution.
例如，在VGG-16的网络中，最后一层池化层或者降低resolution的池化层，将其stride设定为1，避免信号抽取，对之后的所有的卷积层都是用r=2的atrous convolution.在‘优雅’的池化后接artous convolution 可以保证对应的感受野和之前的VGG-16网路的感受野相同。有助于fine-tune.但是这样的方法太 costly. 我们使用atrous convolution 将特征图的密度增大4倍
（？？？），
之后使用双线性差值增大到八倍。
artous convolution 将kernel的size 从 k*k 扩展到 k+(k-1)(r-1)，并没有增加额外的参数或者计算。

使用两种方法来解决 scale variability (目标尺寸不一，有大有小)
第一种是标准的 multiscale processing.提取多层feature map，rescale 到原图尺寸然后融合他们
第二中就是ASPP. 一种基于R-CNN的spatial pyramid pooling method.
这里写图片描述

Structured Prediction with Fully-Connected CRF for Accurate Boundary Recovery
有多层max pooling 层的深度模型被证明对分类有用，但是 increased invariance 和顶层节点比较大的receptive fields只可以获得模糊的 response.
之前的工作在两方面解决localization 问题。
第一种是利用多层卷积层的信息
第二种是应用 super-pixel representation.(????)
我们采用的方法是CRF
传统的CRF是local-range CRFs，用来smooth noise segmentation map。这个和我们的目的相反，DCNN输出的socre map 已经十分平滑，像素具有同质化的结果。我们需要 detail local structure 而不是smooth 它。所以我们使用 fully-connected CRFs.
这里写图片描述
全连接条件随机场的能量函数如上图所示。
第一项是表示把像素 i，分成label i 的能量，第二项是描述像素点与像素点之间的关系，鼓励相似像素分配相同的标签，而相差较大的像素分配不同标签，而这个“距离”的定义与颜色值和实际相对距离有关。
这里写图片描述