dilated conv的理解

最新推荐文章于 2024-01-08 11:09:34 发布

xiabanshenz

最新推荐文章于 2024-01-08 11:09:34 发布

阅读量1.2k

点赞数 1

分类专栏：神经网络

神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

作者：谭旭
链接：https://www.zhihu.com/question/54149221/answer/192025860
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

简单讨论下dilated conv，中文可以叫做空洞卷积或者扩张卷积。首先介绍一下dilated conv诞生背景[4]，再解释dilated conv操作本身，以及应用。

首先是诞生背景，在图像分割领域，图像输入到CNN（典型的网络比如FCN[3]）中，FCN先像传统的CNN那样对图像做卷积再pooling，降低图像尺寸的同时增大感受野，但是由于图像分割预测是pixel-wise的输出，所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测（upsampling一般采用deconv反卷积操作，deconv可参见知乎答案如何理解深度学习中的deconvolution networks？），之前的pooling操作使得每个pixel预测都能看到较大感受野信息。因此图像分割FCN中有两个关键，一个是pooling减小图像尺寸增大感受野，另一个是upsampling扩大图像尺寸。在先减小再增大尺寸的过程中，肯定有一些信息损失掉了，那么能不能设计一种新的操作，不通过pooling也能有较大的感受野看到更多的信息呢？答案就是dilated conv。

下面看一下dilated conv原始论文[4]中的示意图：

&lt;img src="https://pic2.zhimg.com/50/v2-b448e1e8b5bbf7ace5f14c6c4d44c44e_hd.jpg" data-rawwidth="1269" data-rawheight="453" class="origin_image zh-lightbox-thumb" width="1269" data-original="https://pic2.zhimg.com/v2-b448e1e8b5bbf7ace5f14c6c4d44c44e_r.jpg"&gt;

(a)图对应3x3的1-dilated conv，和普通的卷积操作一样，(b)图对应3x3的2-dilated conv，实际的卷积kernel size还是3x3，但是空洞为1，也就是对于一个7x7的图像patch，只有9个红色的点和3x3的kernel发生卷积操作，其余的点略过。也可以理解为kernel的size为7x7，但是只有图中的9个点的权重不为0，其余都为0。可以看到虽然kernel size只有3x3，但是这个卷积的感受野已经增大到了7x7（如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话，那么每个红点就是1-dilated的卷积输出，所以感受野为3x3，所以1-dilated和2-dilated合起来就能达到7x7的conv）,(c)图是4-dilated conv操作，同理跟在两个1-dilated和2-dilated conv的后面，能达到15x15的感受野。对比传统的conv操作，3层3x3的卷积加起来，stride为1的话，只能达到(kernel-1)*layer+1=7的感受野，也就是和层数layer成线性关系，而dilated conv的感受野是指数级的增长。

dilated的好处是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中，都能很好的应用dilated conv，比如图像分割[3]、语音合成WaveNet[2]、机器翻译ByteNet[1]中。简单贴下ByteNet和WaveNet用到的dilated conv结构，可以更形象的了解dilated conv本身。

ByteNet

&lt;img src="https://pic3.zhimg.com/50/v2-036913d7176af92daffcd60698751397_hd.jpg" data-rawwidth="869" data-rawheight="720" class="origin_image zh-lightbox-thumb" width="869" data-original="https://pic3.zhimg.com/v2-036913d7176af92daffcd60698751397_r.jpg"&gt;

WaveNet

&lt;img src="https://pic3.zhimg.com/50/v2-e366fd287082211f1ac4a0fbbf35e3a1_hd.jpg" data-rawwidth="1065" data-rawheight="359" class="origin_image zh-lightbox-thumb" width="1065" data-original="https://pic3.zhimg.com/v2-e366fd287082211f1ac4a0fbbf35e3a1_r.jpg"&gt;

下面再阐述下deconv和dilated conv的区别：

deconv的具体解释可参见如何理解深度学习中的deconvolution networks？，deconv的其中一个用途是做upsampling，即增大图像尺寸。而dilated conv并不是做upsampling，而是增大感受野。

可以形象的做个解释：

对于标准的k*k卷积操作，stride为s，分三种情况：

(1) s>1，即卷积的同时做了downsampling，卷积后图像尺寸减小；

(2) s=1，普通的步长为1的卷积，比如在tensorflow中设置padding=SAME的话，卷积的图像输入和输出有相同的尺寸大小；

(3) 0<s<1，fractionally strided convolution，相当于对图像做upsampling。比如s=0.5时，意味着在图像每个像素之间padding一个空白的像素后，stride改为1做卷积，得到的feature map尺寸增大一倍。

而dilated conv不是在像素之间padding空白的像素，而是在已有的像素上，skip掉一些像素，或者输入不变，对conv的kernel参数中插一些0的weight，达到一次卷积看到的空间范围变大的目的。

当然将普通的卷积stride步长设为大于1，也会达到增加感受野的效果，但是stride大于1就会导致downsampling，图像尺寸变小。大家可以从以上理解到deconv，dilated conv，pooling/downsampling，upsampling之间的联系与区别，欢迎留言沟通交流。

[1] Kalchbrenner, Nal, et al. "Neural machine translation in linear time." arXiv preprint arXiv:1610.10099 (2016).

[2] Oord, Aaron van den, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016).

[3] Long J, Shelhamer E, Darrell T, et al. Fully convolutional networks for semantic segmentation[C]. Computer Vision and Pattern Recognition, 2015.

[4] Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions." arXiv preprint arXiv:1511.07122 (2015).

一点个人的理解：传统的conv操作下假设stride=1，相邻stride之间是有很多重叠的信息的，使用dilated后可以减少这部分重叠的信息。在图b中每个红点是由a中的kernel计算得到的，所以b中每个红点的感受野都是3x3，这样按照图b中9个红点（3x3 kernel）的排列方式的话，就代表了一个7x7的感受野

xiabanshenz

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
dilated conv的理解

作者：谭旭链接：https://www.zhihu.com/question/54149221/answer/192025860来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。简单讨论下dilated conv，中文可以叫做空洞卷积或者扩张卷积。首先介绍一下dilated conv诞生背景[4]，再解释dilated conv操作本身，以及应用
复制链接

扫一扫