Deeplab v3
1.Contribution:
这篇论文和deeplab v2相比,contribution不多,主要是在原来的ASPP模块里面加入了bn,同时引入加入了global context来提高ASPP模块的性能。
2.Related work
文章主要还是专注于图像多尺度信息的提取,作者总结了目前流行的4中多尺度信息提取的方法,如下图所示:
第一种用图像金字塔作为输入;
第二种采用encoder-decoder的方式,去年的一篇FPN就是这种方式的典型代表;
第三种采用Atrous convolution的方式,利用不同的dilated rate可以提取不同scale的特征;
第四种采用SPP的方式,这个在目标检测领域比较常见,可以人为控制任意大小输入的feature map经过spatial pooling之后的特征大小
3.Methods
作者主要尝试了两种不同的网络结构:Cascade和Parallel
3.1.Going Deeper with Atrous Convolution
下图表示Cascade的结构,以resnet101为例,resnet101一共有4个block