前言
RefineNet也是2017年左右提出来的一个用于语义分割的模型。同样的,也是基于充分利用浅层+深层次的特征信息的思想。RefineNet也采用了一种编解码的结构体系设计,以ResNet作为基础模块,加入空洞卷积,设计了名为RefineNet的多路优化模型,在当时也取得了不错的结果。
下面我们一起来看它的具体设计。
RefineNet块
其实上图中的(b)©是比较常见的设计了。但是注意到,这里在局部做了一次多分辨率特征的融合,可以看做是对某一分辨率的特征进行增强。另外的亮点可能是在于名为"Chained Residual Pooling"的设计,也就是图中的(d)部分。作者认为"The proposed chained residual pooling aims to capture background context from a large image region. It is able to efficiently pool features with multiple window sizes and fuse them together using learn- able weights. "也就是作者提议的链式残差合并旨在从大图像区域捕获背景上下文。 它能够有效地合并具有多个窗口大小的要素,并使用可学习的权重将它们融合在一起。 因为网络加深,能够提高感受野。这一点我们是早已说过的了,可以理解。
整体的网络结构
多种设计结构
结果
从结果上看,效果的确非常好!
总结
- 在局部就做多尺度融合的思想也不妨可以借鉴。
- 对图片输入就做resize,然后分别提取特征,做融合。如上面的多种结构设计中的©。这样的输入可以是多样的,也就是说可以采用多种输入大小得到不同size的特征,再与单个输入的不同尺度特征融合。