paper reading:U-Net:Convolutional Networks for Biomedical Image Segmentation

在这里插入图片描述
MICCAI 2015

1 Background

在过去的两年中,深度卷积网络(deep CNN)在许多视觉识别任务中的效果超越了现有的技术。虽然CNN已经存在很长时间,但是它的进展还是受可用训练集大小和所考虑网络大小的限制。CNN的典型用途是用于分类,其中图像的输出是单个类别标签。 然而,在许多视觉任务中,特别是在生物医学图像处理中,期望的输出应包括定位,即,应该将类别标签分配给每个像素。 而且,在生物医学任务中通常无法获得数千个训练集。
Ciresan 等人利用滑动窗口,以Patch作为输入,训练了一个可以预测每个像素class label 的网络,并实现了训练集的扩充。但它有两个缺点:
1. 慢,由于overlap patches,因此存在很多冗余。
2. Larger patches需要更多max-pooling,降低了定位精度;Small patches 获得很少的上下文信息(context

最近的一些方法中考虑features from multiple layers,使good localizationcontext(上下文信息)的利用成为可能。

2 Motivation

作者在FCN的基础上,提出了U-Net(通过补充successive layers来增加输出分辨率),它可以用很少的训练图像工作并产生更精确的分割。

U-Net利用 overlap-tile strategy 来实现the seamless segmentation of arbitrarily large images (see Figure 2
在这里插入图片描述
原始图片是中间的矩形块,如果把它直接放进GPU来训练,分辨率会受到GPU内存的限制,所以作者把它分成多个黄色框框的大小。现在就是要对黄色区域进行分割,但如果直接把黄色区域放进网络中会丢失边界上下文信息,不利于分割,所以作者通过镜像复制来实现边界上下文信息的扩充。把扩充后的蓝色框框输入到网络,采用无 padding 的 Conv(多个 valid Conv,空间分辨率会越卷积越小),就能输出右图中只包含有黄色区域的分割结果。

许多细胞分割任务中的另一个挑战是分离 touching objects of the same class(同一类别的接触对象)。作者利用weighted loss,使边界的Loss赠大,以便能更好的学习出分离边界。

3 Advantages

  • 设计提出了 U-Net 网络,在三个公开数据集上,取得了最好的结果
  • 采用了弹性形变的数据增强方法,可以在样本比较少的生物医学图像应用场景下,采用少量的图片,取得很好的效果
  • 在 512×512的图片上,1s以内能分割出结果

4 Method

4.1 Architecture

在这里插入图片描述

  • Left side : a contracting path to capture context
  • Right side:a symmetric expanding path that enables precise localization.
    收缩路径使用卷积网络的典型架构,在每次下采样时,通道数加倍;扩展路径中的每个步骤都包括对特征图进行上采样,在每次上采样时,通道数量减半,与来自收缩路径的相应裁剪的特征图的串联;在最后一层,使用1x1卷积将每个64分量特征向量映射到所需的类数; 该网络总共有23个卷积层;采用无 padding 的 Conv,空间分辨率会越卷越小。
    网络初始化采高斯分布,标准差为 2 \sqrt{2} 2 ,N denotes the number of incoming nodes of one neuron.

4.2 Loss Function

输入图像及其对应的分割图用于通过Caffe的随机梯度下降实现来训练网络。为了最大程度地减少开销并最大程度地利用GPU内存,作者在 large input tiles over a large batch size ,从而将 batch 减少为 a single image,因此,作者使用 high momentum (0.99)。能量函数是通过最终特征图上的像素级softmax与cross entropy loss 函数相结合来计算的。softmax定义:
5) p k ( x ) = e a k ( x ) ∑ k ′ = 1 K e a k ′ ( x ) p_k(x) = \frac{e^{a_k(x)}}{\sum_{k'=1}^{K}e^{a_{k'}(x)}} pk(x)=k=1Keak(x)eak(x)

  • x ∈ R 2 x\in R^{2} xR2:横纵坐标
  • k k k是特征图的 k − t h k-th kth通道, K K K是类别数
  • a k ( x ) a_{k\left ( x \right )} ak(x)是特征图的 k − t h k-th kth通道像素点 x x x的激活值

cross entropy 定义:
E = − ∑ x ∈ R 2 w ( x ) l o g ( p l ( x ) ( x ) ) E=-\sum_{x \in \mathbb{R}^2}w(x)log(p_{l(x)}(x)) E=xR2w(x)log(pl(x)(x))
x x x进行了加权,损失中多了一项 w ( x ) w(x) w(x)
- l ( x ) l(x) l(x)属于 { 1 , . . . . . , K } \left \{ 1,.....,K \right \} {1,.....,K},表示每个像素 x x x的标签
- w ( x ) ∈ R w(x)\in R w(x)R:是一个权重图,让一些像素在训练的时候,权重更大!根据 GT计算得到,计算方式如下
w ( x ) = w c ( x ) + w 0 ⋅ e − ( d 1 ( x ) + d 2 ( x ) ) 2 2 σ 2 w(x) = w_c(x)+w_0·e^{-\frac{(d_1(x)+d_2(x))^2}{2\sigma^2}} w(x)=wc(x)+w0e2σ2(d1(x)+d2(x))2

  • w c ( x ) w_{c}\left ( x\right ) wc(x)是不同类别的基础权重值
  • d 1 ( x ) ∈ R d_{1}\left ( x\right )\in R d1(x)R表示当前像素离最近细胞边界的距离
  • d 2 ( x ) ∈ R d_{2}\left ( x\right )\in R d2(x)R表示当前像素离第二近的细胞边界的距离
  • ω 0 = 10 , σ = 5 \omega _{0}=10,\sigma =5 ω0=10,σ=5
    如果像素离边界比较近,那么 d 1 ( x ) d_{1}\left ( x\right ) d1(x) d 2 ( x ) d_{2}\left ( x\right ) d2(x)小, w ( x ) w(x) w(x)比较大;如果像素离边界比较远,那么 d 1 ( x ) d_{1}\left ( x\right ) d1(x) d 2 ( x ) d_{2}\left ( x\right ) d2(x)大, w ( x ) w(x) w(x)比较小;以此来达到加大边界权重的效果。

4.3 Data Augmentation

当只有少量训练样本可用时,Data Augmentation对于向网络提供所需的不变性和鲁棒性至关重要。 作者采用elastic deformations来作为数据增强。

5 Experiments

5.1 Datasets

  • EM segmentation challenge(电子显微镜场景):segmentation of neuronal structures in electron microscopic recordings,ISBI 2012 开始,30 images (512x512 pixels),评价指标,warping error、Rand error、pixel error。
  • a cell segmentation task in light microscopic images(光学显微镜场景):part of the ISBI cell tracking challenge 2014 and 2015
    • *PhC-U373 数据集,35 partially annotated training images,评价指标 IoU
    • DIC-HeLa 数据集,20 partially annotated training images,评价指标 IoU
      在这里插入图片描述

5.2 EM segmentation challenge

在这里插入图片描述
warping error、Rand error、pixel error越小越好。

5.3 PhC-U373 and DIC-HeLa

在这里插入图片描述
IOU越大越好。

6 Conclusion

  • U-Net体系结构在不同的生物医学分割应用中实现了非常好的性能。
  • 使用镜像复制,为边缘的分割提供上下文信息,提供了一种无缝分割高分辨率的图像的解决思路。
  • 使用elastic deformations的数据增强,它仅需要很少的带注释的图像,并且在NVidia Titan GPU(6 GB)上只有10小时的合理的训练时间。
  • 提供完整的基于Caffe 的实施方案和训练好的网络。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值