文章链接:https://arxiv.org/pdf/1709.03410.pdf
代码地址:https://github.com/lzzcd001/OSLSM
1. 摘要
动机:目前的小样本图像分类已经很成功,现在我们想将其应用于单样本图像语义分割。
思路:训练一个网络,输入支持集图像,产生一系列的参数作为分割条件,再利用FCN-32(全卷积语义分割网络)来完成语义分割的任务,分割的对象是未见过类。
结果:模型在PASCAL VOC 2012比基准方法在meanIOU指标上有25%的提升,并且速度至少快三倍。
2. 问题定义
本文讨论的是单样本分割,也被称为one-way-one-shot segmentation。one-way指该任务只需要分割一个类别;one-shot指带像素级别的注释图片样本只有一张。
该任务的目的是得到一个训练后的单样本网络(模型)。该网络在输入任意一张图片和它的标签(标签指定一个待分割类别,如猫)后,模型能基于给定的信息,分割任一含猫的图片。
训练基本都采用元学习的任务设定。使用大量其它类别的(如狗、牛等类别)图像来模拟单样本分割任务,从而元学习让模型的分割能力从已见过类(狗、牛)迁移到未见过类(猫)。
3. 模型
模型的思路如下:
其中,support set: 提供的待分割类别信息。query set:待分割的图片。 segmentation Mask:模型的分割结果,即query set的预测标签。
具体模型结构如下:
作者设计了一个双分支网络:条件分支网络(conditioning branch)和分割分支网络(segmentation branch)。第一个网络输入support set产生一系列参数,第二个网络接受这些参数和query set 输出预测标签mask。
模型分割的大致过程:
1.利用支持集标签将支持图片剔除背景:让网络更集中于需要关注的对象。
2.将上述数据输入vgg网络,提取出对象的特征向量1000维。
3.利用哈希权重的方法,将1000维的向量映射到4096+1维(w+b)。
4.将query set输入分割网络FCN,提取特征,得到特征图向量 通道数4096 长宽h*w。
5.将(w+b)参数与分割网络提取的特征做逻辑回归来进行二分类。
6.最终得到h*w的heatmap(特征图),再进行上采样(双线性插值),得到原图大小的预测标签。
4. 实验结果
5. 评价
提出单样本分割的问题,并给了解决方案。定义了单样本,五样本的benchmark。定义了Pascal-5i数据集。
本文是小样本图像语义分割的开山之作。虽然直接使用逻辑回归做法很粗暴,得到的结果不够精细。但定下了小样本图像语义分割的主要流程: 1.提取特征;2.比较;3.分割。