该博客只是在学习本篇论文时自己所遇问题以及一些心得,如有侵权,请联系本人删除即可。
该论文主要针对的是SOD遇到的一些问题,如:模型架构复杂、模型参数较多的问题,作者提出了一种框架即:Reverse Attention-Based Residual Network。
前述部分作者讲的很仔细,我就不多赘述,只进行模型的讲解。
Initial Saliency Prediction
首先经过VGG-16进行处理,因为VGG16独特的网络框架,具有五个最大池化层,因此在每个池化层处引出五个不同尺寸大小的侧输出。论文将最后一个池化层的输出称为initial saliency,作者首先对initial saliency进行处理:通过一个1*1的卷积层将输出将成维度为64的输出。并且设计了一个多尺度上下文模块(MSCM)用来捕获全局显著性线索。MSCM分为两部分:一是(2b-1)x(2b-1)尺寸的卷积核进行卷积,另一个是核尺寸为3x3输出为2(b-1)的卷积核进行卷积。最后将四个分支进行融合,并通过一个3x3的卷积生成单通道的输出预测,生成结果只有输入图片的1/32.