MICCAI 2015
目 录
1 Background
在过去的两年中,深度卷积网络(deep CNN)在许多视觉识别任务中的效果超越了现有的技术。虽然CNN已经存在很长时间,但是它的进展还是受可用训练集大小和所考虑网络大小的限制。CNN的典型用途是用于分类,其中图像的输出是单个类别标签。 然而,在许多视觉任务中,特别是在生物医学图像处理中,期望的输出应包括定位,即,应该将类别标签分配给每个像素。 而且,在生物医学任务中通常无法获得数千个训练集。
Ciresan 等人利用滑动窗口,以Patch作为输入,训练了一个可以预测每个像素class label 的网络,并实现了训练集的扩充。但它有两个缺点:
1. 慢,由于overlap patches,因此存在很多冗余。
2. Larger patches需要更多max-pooling,降低了定位精度;Small patches 获得很少的上下文信息(context)
最近的一些方法中考虑features from multiple layers,使good localization和context(上下文信息)的利用成为可能。
2 Motivation
作者在FCN的基础上,提出了U-Net(通过补充successive layers来增加输出分辨率),它可以用很少的训练图像工作并产生更精确的分割。
U-Net利用 overlap-tile strategy 来实现the seamless segmentation of arbitrarily large images (see Figure 2)
原始图片是中间的矩形块,如果把它直接放进GPU来训练,分辨率会受到GPU内存的限制,所以作者把它分成多个黄色框框的大小。现在就是要对黄色区域进行分割,但如果直接把黄色区域放进网络中会丢失边界上下文信息,不利于分割,所以作者通过镜像复制来实现边界上下文信息的扩充。把扩充后的蓝色框框输入到网络,采用无 padding 的 Conv(多个 valid Conv,空间分辨率会越卷积越小),就能输出右图中只包含有黄色区域的分割结果。
许多细胞分割任务中的另一个挑战是分离 touching objects of the same class(同一类别的接触对象)。作者利用weighted loss,使边界的Loss赠大,以便能更好的学习出分离边界。
3 Advantages
- 设计提出了 U-Net 网络,在三个公开数据集上,取得了最好的结果
- 采用了弹性形变的数据增强方法,可以在样本比较少的生物医学图像应用场景下,采用少量的图片,取得很好的效果
- 在 512×512的图片上,1s以内能分割出结果
4 Method
4.1 Architecture
- Left side : a contracting path to capture context
- Right side:a symmetric expanding path that enables precise localization.
收缩路径使用卷积网络的典型架构,在每次下采样时,通道数加倍;扩展路径中的每个步骤都包括对特征图进行上采样,在每次上采样时,通道数量减半,与来自收缩路径的相应裁剪的特征图的串联;在最后一层,使用1x1卷积将每个64分量特征向量映射到所需的类数; 该网络总共有23个卷积层;采用无 padding 的 Conv,空间分辨率会越卷越小。
网络初始化采高斯分布,标准差为 2 \sqrt{2} 2,N denotes the number of incoming nodes of one neuron.
4.2 Loss Function
输入图像及其对应的分割图用于通过Caffe的随机梯度下降实现来训练网络。为了最大程度地减少开销并最大程度地利用GPU内存,作者在 large input tiles over a large batch size ,从而将 batch 减少为 a single image,因此,作者使用 high momentum (0.99)。能量函数是通过最终特征图上的像素级softmax与cross entropy loss 函数相结合来计算的。softmax定义:
5)
p
k
(
x
)
=
e
a
k
(
x
)
∑
k
′
=
1
K
e
a
k
′
(
x
)
p_k(x) = \frac{e^{a_k(x)}}{\sum_{k'=1}^{K}e^{a_{k'}(x)}}
pk(x)=∑k′=1Keak′(x)eak(x)
- x ∈ R 2 x\in R^{2} x∈R2:横纵坐标
- k k k是特征图的 k − t h k-th k−th通道, K K K是类别数
- a k ( x ) a_{k\left ( x \right )} ak(x)是特征图的 k − t h k-th k−th通道像素点 x x x的激活值
cross entropy 定义:
E
=
−
∑
x
∈
R
2
w
(
x
)
l
o
g
(
p
l
(
x
)
(
x
)
)
E=-\sum_{x \in \mathbb{R}^2}w(x)log(p_{l(x)}(x))
E=−x∈R2∑w(x)log(pl(x)(x))
对
x
x
x进行了加权,损失中多了一项
w
(
x
)
w(x)
w(x)
-
l
(
x
)
l(x)
l(x)属于
{
1
,
.
.
.
.
.
,
K
}
\left \{ 1,.....,K \right \}
{1,.....,K},表示每个像素
x
x
x的标签
-
w
(
x
)
∈
R
w(x)\in R
w(x)∈R:是一个权重图,让一些像素在训练的时候,权重更大!根据 GT计算得到,计算方式如下
w
(
x
)
=
w
c
(
x
)
+
w
0
⋅
e
−
(
d
1
(
x
)
+
d
2
(
x
)
)
2
2
σ
2
w(x) = w_c(x)+w_0·e^{-\frac{(d_1(x)+d_2(x))^2}{2\sigma^2}}
w(x)=wc(x)+w0⋅e−2σ2(d1(x)+d2(x))2
- w c ( x ) w_{c}\left ( x\right ) wc(x)是不同类别的基础权重值
- d 1 ( x ) ∈ R d_{1}\left ( x\right )\in R d1(x)∈R表示当前像素离最近细胞边界的距离
- d 2 ( x ) ∈ R d_{2}\left ( x\right )\in R d2(x)∈R表示当前像素离第二近的细胞边界的距离
-
ω
0
=
10
,
σ
=
5
\omega _{0}=10,\sigma =5
ω0=10,σ=5
如果像素离边界比较近,那么 d 1 ( x ) d_{1}\left ( x\right ) d1(x)和 d 2 ( x ) d_{2}\left ( x\right ) d2(x)小, w ( x ) w(x) w(x)比较大;如果像素离边界比较远,那么 d 1 ( x ) d_{1}\left ( x\right ) d1(x)和 d 2 ( x ) d_{2}\left ( x\right ) d2(x)大, w ( x ) w(x) w(x)比较小;以此来达到加大边界权重的效果。
4.3 Data Augmentation
当只有少量训练样本可用时,Data Augmentation对于向网络提供所需的不变性和鲁棒性至关重要。 作者采用elastic deformations来作为数据增强。
5 Experiments
5.1 Datasets
- EM segmentation challenge(电子显微镜场景):segmentation of neuronal structures in electron microscopic recordings,ISBI 2012 开始,30 images (512x512 pixels),评价指标,warping error、Rand error、pixel error。
- a cell segmentation task in light microscopic images(光学显微镜场景):part of the ISBI cell tracking challenge 2014 and 2015
- *PhC-U373 数据集,35 partially annotated training images,评价指标 IoU
- DIC-HeLa 数据集,20 partially annotated training images,评价指标 IoU
5.2 EM segmentation challenge
warping error、Rand error、pixel error越小越好。
5.3 PhC-U373 and DIC-HeLa
IOU越大越好。
6 Conclusion
- U-Net体系结构在不同的生物医学分割应用中实现了非常好的性能。
- 使用镜像复制,为边缘的分割提供上下文信息,提供了一种无缝分割高分辨率的图像的解决思路。
- 使用elastic deformations的数据增强,它仅需要很少的带注释的图像,并且在NVidia Titan GPU(6 GB)上只有10小时的合理的训练时间。
- 提供完整的基于Caffe 的实施方案和训练好的网络。