2021ICCV:Hypercorrelation Squeeze for Few-Shot Segmenation
文章链接:https://arxiv.org/pdf/2104.01538
代码地址:https://github.com/juhongm999/hsnet
1. 主要思想
当前的小样本分割试图用很少的图片来完成对query image的分割。这个具有挑战性的任务需要理解不同层次的视觉线索,并分析查询和支持图像之间的细粒度对应关系。对此,本文提出了多连接挤压网络来解决上述问题。该网络利用多级相关的特征和高效的4D卷积。从不同层次的中间卷积层中提取不同的特征,构建4d相关张量集合。该方法在金字塔结构中利用高效的中心-枢轴4D卷积,逐步将高相关的高级语义和低级几何线索挤压成由粗到细的精确分割掩模。
简单来说,这篇文章主要是合并了当前两个主要的思路:multi-level features and 4D convolutions。
如上图:
- 1.利用来自许多不同的CNN中间层的不同几何/语义特征表示,构建一个4D相关张量集合,即超相关,它代表了多个视觉方面的丰富对应关系集合。再利用深度叠加的4D转换层,捕捉高级语义和低级几何线索,实现从粗到细的精确掩模预测。
- 2.为了减少大量使用高维卷积带来的计算负担,本文通过合理的权重稀疏设计了一个高效的4D核,它可以实现实时推理,同时比现有的核更有效、更轻量。
2.模型
2.1 Hypercorrelation construction
建立多连接的关系矩阵,是为了捕获支持和查询图像之间的多级语义和几何相似性模式。
首先得到多级特征:
l代表不同的层次,layers M是mask。
计算多连接矩阵图片: ,该矩阵是一个从多个视觉方面表示丰富的特征相关性集合。
2.2 4D-convolutional pyramid encoder
每个分支负责计算当前输入的一个多维度矩阵,得到128维的4D张量。 然后,仿照FPN的金字塔结构,将相邻的通道直接相加,再直接通过mix通道输出。最后,挤压最后的两个通道,还原成2D的形式,变为:
2.3 2D-convolutional context decoder
见图。由全卷积层组成。
2.4 Center-pivot 4D convolution
为了减少4D卷积的参数,设计了有一个轻量型4D卷积。
3.实验
4. 评价
第一次在小样本分割中使用到4D卷积,图画的不错,实验比较充实,美观。