详尽 | Deeplabv3+结构理解

F_D_Z

于 2024-08-19 09:04:27 发布

阅读量509

点赞数 23

分类专栏：深度学习论文 python 文章标签：深度学习人工智能 Deeplabv3 ASPP 空洞卷积 Dilated Conv Encoder-Decoder

本文链接：https://blog.csdn.net/weixin_73404807/article/details/141257117

版权

深度学习同时被 3 个专栏收录

39 篇文章 0 订阅

订阅专栏

python

14 篇文章 0 订阅

订阅专栏

论文

3 篇文章 0 订阅

订阅专栏

https://arxiv.org/pdf/1802.02611.pdf

https://link.springer.com/chapter/10.1007/978-3-319-10578-9_23

Dilated/Atrous Conv 空洞卷积

Deeplabv3+

deeplab-v3+是语义分割网络，组合采用空洞卷积空间金字塔池模块和编码器-解码器结构。

Encoder部分

输入经过backbone骨干网络（图中深度卷积神经网络DCNN Atrous Conv的部分）得到两个输出：一个是low-level feature低级特征，其直接提供给Decoder，这是个output=4x的输出；另一个是high-level feature高级特征，其经过ASPP空间金字塔池模块，这是个output=16x的输出。

input stride为进行卷积时候设置的stride值
output stride为矩阵经多次卷积池化操作后尺寸缩小的值

high-level feature高级特征经过ASPP空洞卷积空间金字塔池模块的5个不同操作得到5个输出，其中1个1×1卷积，3个不同rate的dilated conv空洞卷积，1个ImagePooling全局平均池化。这5个输出经过concatenate连接层和1×1卷积层得到output stride=16x的输出。

ASPP是在SPP的基础上加入Dilated/Atrous Convolution空洞卷积实现的
相比conv，Dilated conv多了一个 hyper-parameter：dilation rate
dilation rate指kernel的间隔数，正常conv的dilatation rate为1

SPP即空间金字塔池，解决CNN输入图像大小必须固定的问题
CNN的第一个全连接层要求固定的输入大小，例如VGG模型要求输入大小224*224
SPP能够使得输入图像高宽比和大小任意，有效解决多目标分割等问题。

这里ImagePooling对特征进行全局平均池化之后再上采样到原来大小
卷积可以局部提取特征，ImagePooling可以全局提取特征，这样就得到了多尺度特征
特征通过concatenate层叠加，而不是add层直接相加

Decoder部分

上面的Encoder部分为Decoder部分提供了两个输入

low-level featur低级特征经过1x1卷积调整维度（output stride=4x）low-level feature调整到48 channels时效果最好；

high-level featur高级特征上采样4倍，使得output stride从16x变为4x，再将两个4x特征通过concatenate层连接。

再连接一个或多个的3×3卷积（接2个out_channels=256的3x3卷积，输出效果较好），再上采样4倍得到Dense Prediction密集预测，即预测图像中的每个像素，语义分割。

这里Deeplabv3+的Decoder部分的上采样模块均通过双线性插值实现

补充摘要

SPP 空间金字塔池化层模块

input image输入层，可以为任意大小。输入后进行卷积运算，到最后一个卷积层输出得到该层的feature maps特征映射，其大小也是任意的。

Spatial Pyramid Pooling layer SPP层。以最左侧16X256-d为例，16表示将从前面卷积得到的特征映射分成16份，256表示channel通道数，即SPP对每一层都分成16份，进行池化操作，一般进行max pooling最大池化。中间右侧同理，即将特征映射分别分成4X256和1X256。

通过SPP层，特征映射被转化成16X256+4X256+1X256=21X256的矩阵，在送入全连接时可扩展成一维矩阵1X10752，所以第一个全连接层的参数设置为10752，有效解决输入数据大小的问题。

注意分法可自由调整，不一定等分

Dilated/Atrous Conv 空洞卷积

Dilated / Atrous Convolution / Convolution with hole，中文为空洞卷积（也有称为膨胀卷积），

其是在标准的 convolution map 里注入空洞，以此增加 reception field感受野。
相比常规conv，Dilated conv多了一个超参数dilation rate，指kernel的间隔数
可以认为常规 convolution 的 dilatation rate 为 1

通过图示可以很好理解

以下是3*3 kernal and 1 dilation rate的常规卷积

以下是3*3 kernal and 2 dilation rate的空洞卷积

与其他卷积对比

F_D_Z

关注

23
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
详尽 | Deeplabv3+结构理解

input image输入层，可以为任意大小。输入后进行卷积运算，到最后一个卷积层输出得到该层的feature maps特征映射，其大小也是任意的。Spatial Pyramid Pooling layer SPP层。以最左侧16X256-d为例，16表示将从前面卷积得到的特征映射分成16份，256表示channel通道数，即SPP对每一层都分成16份，进行池化操作，一般进行max pooling最大池化。中间右侧同理，即将特征映射分别分成4X256和1X256。
复制链接

扫一扫