U-Net:用于生物医学图像分割的卷积网络

英文原文链接: U-Net: Convolutional Networks for Biomedical Image Segmentation

Author—Olaf Ronneberger, Philipp Fischer, and Thomas Brox
Computer Science Department and BIOSS Centre for Biological Signalling Studies, University of Freiburg, Germany ronneber@informatik.uni-freiburg.de , WWW home page: http://lmb.informatik.uni-freiburg.de/

摘要

        人们普遍认为,成功的深层网络训练需要数千个带注释的训练样本。在这篇文章中,我们提出了一个网络和训练策略,它依赖于强大的数据扩充来更有效地使用可用的注释样本。该体系结构包括一个用于捕获上下文的收缩路径和一个支持精确定位的对称扩展路径。我们证明这样的网络可以从很少的图像中进行端到端的训练,并且在电子显微镜堆栈中神经元结构分割的ISBI挑战方面优于先前的最佳方法(滑动窗口卷积网络)。利用同样的网络,我们在透射光显微镜图像(相衬度和DIC)上获得了2015年ISBI细胞跟踪挑战赛的冠军。而且,网络很快。在最近的GPU上,512x512图像的分割只需不到一秒钟的时间。全面实施(基于Caffe)和经过培训的网络可在U-Net.

1.介绍

        在过去的两年中,深度卷积网络在许多视觉识别任务中的表现超越了现有技术。 [7,3]。 尽管卷积网络已经存在很长时间了[8],但是由于可用训练集的大小和所考虑的网络的大小,卷积网络的成功受到限制。 Krizhevsky等人的突破。[7]这是由于在ImageNet数据集上对一个8层、数百万个参数的大型网络进行监督训练,该数据集包含100万个训练图像。从那时起,甚至更大更深的网络也得到了训练[12]。

        卷积网络的典型用途是分类任务,在分类任务中,图像的输出是一个单一的类标签。然而,在许多视觉任务中,特别是在生物医学图像处理中,期望的输出应该包括定位,也就是说,应该为每个像素分配一个类标签。此外,在生物医学任务中,成千上万的训练图像通常是遥不可及的。因此,Ciresan等人。[1]在滑动窗口设置中训练网络,通过提供像素周围的局部区域(像素块)作为输入,预测每个像素的类标签。首先,这个网络可以本地化。其次,训练数据在像素块方面远远大于训练图像的数目。由此产生的网络在2012年ISBI大会上以较大优势赢得了EM细分挑战赛。

        显然,Ciresan等人的策略。[1] 有两个缺点。首先,它非常慢,因为每个像素块必须单独运行网络,并且由于重叠的像素块,存在大量冗余。其次,在定位精度和上下文使用之间存在一个折衷。较大的像素块需要更多的最大池层,这会降低定位精度,而小像素块只允许网络看到很少的上下文。最近的方法[11,4]提出了一种考虑多层特征的分类器输出。同时,良好的本地化和上下文的使用是可能的。

        在本文中,我们构建了一个更优雅的体系结构,即所谓的“完全卷积网络”[9]。我们修改和扩展了这个体系结构,使得它只使用很少的训练图像,并产生更精确的分割;见图1。[9]中的主要思想是用连续的层来补充通常的收缩网络,其中池操作被上采样操作符代替。因此,这些层提高了输出的分辨率。为了定位,收缩路径的高分辨率特征与上采样输出相结合。随后,一个连续的卷积层可以学习根据这些信息组装更精确的输出。

                        在这里插入图片描述

图1.U-net架构(例如最低分辨率的32x32像素)。每个蓝色框对应一个多通道特征映射。频道数显示在盒子的顶部。x-y尺寸位于盒子的左下边缘。白色框表示复制的要素地图。箭头表示不同的操作。

        我们架构中的一个重要修改是,在上采样部分,我们还有大量的特征通道,允许网络将上下文信息传播到更高分辨率的层。因此,扩展路径或多或少与收缩路径对称并产生一个U形结构。该网络没有任何全连接层,只使用每个卷积的有效部分,即分割图只包含像素,其完整上下文在输入图像中是可用的。此策略允许通过重叠平铺策略对任意大的图像进行无缝分割(参见图2)。为了预测图像边界区域的像素,通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大图像非常重要,否则分辨率将受到GPU内存的限制。

                        在这里插入图片描述

图2.用于任意大图像的无缝分割的重叠块策略(这里是对电磁波叠加中神经元结构的分割)。在黄色区域预测分割,需要输入蓝色区域内的图像数据。缺少的输入数据是通过镜像推断出来的

        对于我们的任务来说,训练数据很少,我们通过对可用的训练图像应用弹性变形来增加数据。这使得网络能够学习到对这种变形的不变性,而不需要在带注释的图像语料库中看到这些变换。这在生物医学分割中尤其重要,因为变形曾经是组织中最常见的变化,并且可以有效地模拟真实的变形。数据扩充对于学习不变性的价值Dosovitskiy等人已在[2] 无监督特征学习的范围内中得到了证明。

        许多单元分割任务中的另一个挑战是分离同一类的接触对象;请参见图3。为此,我们建议使用加权损失,其中分离的背景标签之间的接触细胞获得一个大的权重损失函数。

              在这里插入图片描述

图3。用DIC(DIC)显微镜记录HeLa细胞。(a) 原始图像。(b) 覆盖基本真实分割。不同的颜色表示HeLa单元的不同实例。(c) 生成的分段掩码(白色:前景,黑色:背景)。(d) 使用像素级的权重损失来强制网络学习边界像素。

        所得网络适用于各种生物医学分割问题。在这篇论文中,我们展示了电磁波叠加中神经元结构分割的结果(ISBI 2012年开始的一项持续竞争),我们的表现超过了Ciresan等人的网络[1] 。此外,我们展示了ISBI细胞跟踪挑战赛2015的光镜图像中的细胞分割结果。在这两个最具挑战性的二维透射光数据集上,我们以较大的优势获胜。

2. 网络结构

        网络体系结构如图1所示。它由收缩路径(左侧)和扩展路径(右侧)组成。收缩路径遵循卷积网络的典型结构。它包括重复应用两个3x3卷积(未相加的卷积),每个卷积后面都有一个校正的线性单元(ReLU)和一个2x2最大池化操作,步长为2,用于下采样。在每个下采样步骤中,我们将特征通道的数量加倍。扩展路径中的每一步都包括对特征映射进行上采样,然后进行2x2卷积(“上卷积”),将特征通道数量减半,与收缩路径中相应裁剪的特征映射进行串联,以及两个3x3卷积,每个卷积后面都有一个ReLU。由于每次卷积都会丢失边界像素,所以裁剪是必要的。在最后一层,使用1x1卷积将每个64分量的特征向量映射到所需数量的类。网络总共有23个卷积层。

                                   在这里插入图片描述

图1.U-net架构(例如最低分辨率的32x32像素)。每个蓝色框对应一个多通道特征映射。频道数显示在盒子的顶部。x-y尺寸位于盒子的左下边缘。白色框表示复制的要素地图。箭头表示不同的操作。

        为了允许输出分段映射的无缝平铺(请参见图2),选择输入平铺的大小非常重要,这样所有2x2最大池操作都应用于具有偶数x和y大小的层。

3. 网络训练

        利用输入图像及其相应的分割图,利用Caffe的随机梯度下降实现训练网络[6]。由于未加卷积,输出图像比输入图像小,边界宽度不变。为了最大限度地减少开销并最大限度地利用GPU内存我们倾向于使用大的输入块而不是大的批处理大小从而将批处理减少到单个图像。因此,我们使用高动量(0.99),使得大量先前看到的训练样本确定当前优化步骤中的更新。
        能量函数由像素级的软最大值结合交叉熵损失函数计算得到。软最大值定义为
在这里插入图片描述
其中ak(x)表示在特征信道k中像素位置处的激活值。
在这里插入图片描述
K是类的数量,pk(x)是近似的最大函数。即:
pk(x)≈1对于具有最大活化度ak(x)的k,对于所有其他k,pk(x)≈0。交叉熵然后在每个位置惩罚pl(x)(x)与1的偏差,使用
在这里插入图片描述
        其中l:Ω→{1,…,K}是每个像素的真实标记,w:Ω→R是一个权重映射,我们引入了这个权重映射,使一些像素在训练中更为重要。

        我们预先计算每个ground truth分割的权重图,以补偿训练数据集中某类像素的不同频率,并迫使网络学习我们在距离很近的两个细胞之间引入的小分隔边界(见图3c和d)。

分离边界的计算采用形态学运算。然后将权重贴图计算为:
在这里插入图片描述
        其中wc:Ω→R是平衡类频率的权重映射,d1:Ω→R表示到最近单元边界的距离,d2:Ω→R表示到第二个最近单元边界的距离。在我们的实验中,我们设置w0=10和σ≈5个像素。

        在具有许多卷积层和通过网络的不同路径的深层网络中,权值的良好初始化非常重要。否则,网络的某些部分可能会激活过多,而其他部分则不会做出贡献。理想情况下,初始权值应该调整,使得网络中的每个特征映射具有近似的单位方差。对于我们的体系结构(交替卷积和ReLU层)的网络,这可以通过从标准偏差为根号下2/N的高斯分布中提取初始权重来实现,其中N表示一个神经元的传入节点数[5]。例如对于3x3卷积和前一层中的64个特征信道,N=9·64=576。

3.1数据扩充

        当训练的样本数较少时,网络的鲁棒性和不变性是必需的。对于显微图像,我们主要需要平移和旋转不变性以及对变形和灰度变化的鲁棒性。特别是训练样本的随机弹性变形,似乎是训练一个只有很少注释图像的分割网络的关键概念。我们使用随机位移向量在一个粗略的3×3网格上生成平滑变形。位移从高斯分布采样,标准偏差为10像素。然后使用双三次插值计算每个像素的位移。收缩路径末端的退出层执行进一步的隐式数据扩充。

4. 实验

        我们演示了U-net在三种不同的分割任务中的应用。第一个任务是在电子显微镜记录中分割神经元结构。图2显示了数据集和我们获得的分段的示例。我们提供完整的结果作为补充材料。数据集由ISBI2012年开始的新兴市场细分挑战[14]提供,目前仍对新的贡献开放。训练数据是一组来自果蝇一龄幼虫腹侧神经索(VNC)的连续切片透射电镜图像(512x512像素)。每幅图像都有相应的完全注释的细胞(白色)和细胞膜(黑色)的真实分割图。测试集U是公开的,但是它的分割图是保密的。通过将预测的膜概率图发送给组织者,可以得到评估。评估是通过在10个不同级别上对地图进行阈值化,并计算“扭曲误差”、“随机误差”和“像素误差”[14]。

        U-net(在输入数据的7个旋转版本上的平均值)在没有任何进一步的预处理或后处理的情况下实现了0.0003529的rand-error(新的最佳分数,见表1)和0.0382的随机误差。

        这明显优于Ciresan等人的滑动窗卷积网络结果。[1] ,其最佳提交结果的rand-error为0.000420,随机误差为0.0504。就随机误差而言,该数据集上唯一性能更好的算法使用了Ciresan等人的概率图所采用的高度特定于数据集的后处理方法[1] 。

        我们还将U-net应用于光镜图像中的细胞分割任务。这个分离任务是2014年和2015年ISBI细胞追踪挑战赛的一部分[10,13]。第一个数据集“PhC-U373”2包含由相差显微镜记录的聚丙烯腈基片上的胶质母细胞瘤星形细胞瘤U373细胞(见图4a,b和补充材料)。它包含35个部分注释的训练图像。在这里,我们实现了92%的平均IOU(“交集对联合”),这明显优于第二最佳算法83%(见表2)。第二个数据集“DIC HeLa”3是通过差分干涉对比显微镜(DIC)记录在平板玻璃上的HeLa细胞(见图3,图4c、d和补充材料)。它包含20个部分注释的训练图像。在这里,我们实现了77.5%的平均IOU,明显优于46%的次优算法。

表1.在EM分割挑战[14]排名(2015年3月6日),按warping error排序

                                                在这里插入图片描述

                                在这里插入图片描述

图4.ISBI细胞追踪挑战的结果。(a) “PhC-U373”数据集输入图像的一部分。(b) 分割结果(青色蒙版)与人工ground truth(黄色边框)(c)输入图像的“DIC HeLa”数据集。(d) 分割结果(随机彩色蒙版)与人工ground truth(黄色边界)。
表2.Segmentation results (IOU) on the ISBI cell tracking challenge 2015.

                                                                在这里插入图片描述

5. 结论

        U-net体系结构在非常不同的生物医学分割应用程序上取得了非常好的性能。由于弹性变形的数据增强,它只需要很少的注释图像,并且在NVidia Titan GPU(6gb)上只需要10个小时的合理训练时间。我们提供完整的基于Caffe[6]的实现和训练有素的网络4。我们确信u-net架构可以很容易地应用到更多的任务中。

Acknowlegements

        本研究得到了德国联邦和州政府卓越计划(EXC 294)和BMBF(Fkz 0316185B)的支持。

参考文献

  1. Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp.
    2852–2860 (2012)
  2. Dosovitskiy, A., Springenberg, J.T., Riedmiller, M., Brox, T.: Discriminative unsupervised feature learning with convolutional neural networks. In: NIPS (2014)
  3. Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE
    Conference on Computer Vision and Pattern Recognition (CVPR) (2014)
  4. Hariharan, B., Arbelez, P., Girshick, R., Malik, J.: Hypercolumns for object segmentation and fine-grained localization (2014), arXiv:1411.5752 [cs.CV]
  5. He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing humanlevel performance on imagenet classification (2015), arXiv:1502.01852 [cs.CV]
  6. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding
    (2014), arXiv:1408.5093 [cs.CV]
  7. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)
  8. LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W.,
    Jackel, L.D.: Backpropagation applied to handwritten zip code recognition. Neural
    Computation 1(4), 541–551 (1989)
  9. Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic
    segmentation (2014), arXiv:1411.4038 [cs.CV]
  10. Maska, M., (…), de Solorzano, C.O.: A benchmark for comparison of cell tracking
    algorithms. Bioinformatics 30, 1609–1617 (2014)
  11. Seyedhosseini, M., Sajjadi, M., Tasdizen, T.: Image segmentation with cascaded
    hierarchical models and logistic disjunctive normal networks. In: Computer Vision
    (ICCV), 2013 IEEE International Conference on. pp. 2168–2175 (2013)
  12. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale
    image recognition (2014), arXiv:1409.1556 [cs.CV]
  13. WWW: Web page of the cell tracking challenge, http://www.codesolorzano.com/
    celltrackingchallenge/Cell_Tracking_Challenge/Welcome.html
  14. WWW: Web page of the em segmentation challenge, http://brainiac2.mit.edu/
    isbi_challenge/
  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值