2019-12-26补充:
发现一篇讲的很清楚的博客DeeplabV1&V2:https://towardsdatascience.com/review-deeplabv1-deeplabv2-atrous-convolution-semantic-segmentation-b51c5fbde92d
一开始真是被标题和摘要吓到了,怎么一篇论文里面塞了这么这么多的东西emmmmm。结果看完了发现,其实是在之间做完的基础上加了ASPP,又结合一些更新的模型运行的结果。
三个主要贡献:
1、突出强调了空洞卷积(Atrous convolution)的重要性。能扩大Filter的感知域,而不增加计算量。
2、提出了ASPP方法来结合多个尺度进行图像分割。
3、结合DCNN和传统的概率图模型-全连接条件随机场(fully connected CRF),从而极大提高了图像分割的准确度。
将传统用于图像分类的DCNNs用于语义分割领域时,面临的三个挑战(并不是只有这三种应用困难,只是论文中只提到了这三点)
挑战1:传统DCNNs中的max-pooling层和downsample(strding)采样,降低了网络输出的空间分辨率。
解决方法:使用“空洞卷积”,atrous convolution,即dilated convtion。通过设置不同的扩张率dilation rate,在不增加计算量的情况下,保持输出的分辨率。
说是空洞卷积,其实就是在原来相邻的卷积单元中间,加一个0而已。计算时只考虑那些非零量之间的计算,因此这样的操作不会增加计算量,也不用学习新的参数,比传统的使用decon
挑战2:在图像语义分割任务中,一张图像里存在多个不同尺寸的目标。
解决方法:ASPP。
挑战3:由于DCNN自身内部逻辑需要(…),限制了DCNN在定位目标边界上的准确度。
解决方法:将两个训练好的模型DCNNs和CRFs,用类似瀑布的结构结合起来。结合后得到的新模型,已经在该作者之前的论文中讲述过了,因此这篇论文并没有再讲述具体是如何结合的。
打算之后再看一下之前的那篇论文——《Semantic image segmentation with deep convolutional nets and fully connected crfs》