paper reading：U-Net：Convolutional Networks for Biomedical Image Segmentation

最新推荐文章于 2022-10-11 15:55:50 发布

小苑同学

最新推荐文章于 2022-10-11 15:55:50 发布

阅读量569

点赞数

分类专栏：图像分割论文阅读笔记文章标签：计算机视觉卷积深度学习

本文链接：https://blog.csdn.net/yuansiming0920/article/details/105847387

版权

图像分割论文阅读笔记专栏收录该内容

23 篇文章 3 订阅

订阅专栏

在这里插入图片描述
MICCAI 2015

1 Background

在过去的两年中，深度卷积网络（deep CNN）在许多视觉识别任务中的效果超越了现有的技术。虽然CNN已经存在很长时间，但是它的进展还是受可用训练集大小和所考虑网络大小的限制。CNN的典型用途是用于分类，其中图像的输出是单个类别标签。然而，在许多视觉任务中，特别是在生物医学图像处理中，期望的输出应包括定位，即，应该将类别标签分配给每个像素。而且，在生物医学任务中通常无法获得数千个训练集。
Ciresan 等人利用滑动窗口，以Patch作为输入，训练了一个可以预测每个像素class label 的网络，并实现了训练集的扩充。但它有两个缺点：
1. 慢，由于overlap patches，因此存在很多冗余。
2. Larger patches需要更多max-pooling，降低了定位精度；Small patches 获得很少的上下文信息（context）

最近的一些方法中考虑features from multiple layers，使good localization和context（上下文信息）的利用成为可能。

2 Motivation

作者在FCN的基础上，提出了U-Net（通过补充successive layers来增加输出分辨率），它可以用很少的训练图像工作并产生更精确的分割。

U-Net利用 overlap-tile strategy 来实现the seamless segmentation of arbitrarily large images （see Figure 2）
在这里插入图片描述
原始图片是中间的矩形块，如果把它直接放进GPU来训练，分辨率会受到GPU内存的限制，所以作者把它分成多个黄色框框的大小。现在就是要对黄色区域进行分割，但如果直接把黄色区域放进网络中会丢失边界上下文信息，不利于分割，所以作者通过镜像复制来实现边界上下文信息的扩充。把扩充后的蓝色框框输入到网络，采用无 padding 的 Conv（多个 valid Conv，空间分辨率会越卷积越小），就能输出右图中只包含有黄色区域的分割结果。

许多细胞分割任务中的另一个挑战是分离 touching objects of the same class（同一类别的接触对象）。作者利用weighted loss，使边界的Loss赠大，以便能更好的学习出分离边界。

3 Advantages

设计提出了 U-Net 网络，在三个公开数据集上，取得了最好的结果
采用了弹性形变的数据增强方法，可以在样本比较少的生物医学图像应用场景下，采用少量的图片，取得很好的效果
在 512×512的图片上，1s以内能分割出结果

4 Method

4.1 Architecture

在这里插入图片描述

Left side ： a contracting path to capture context
Right side：a symmetric expanding path that enables precise localization.
收缩路径使用卷积网络的典型架构，在每次下采样时，通道数加倍；扩展路径中的每个步骤都包括对特征图进行上采样，在每次上采样时，通道数量减半，与来自收缩路径的相应裁剪的特征图的串联；在最后一层，使用1x1卷积将每个64分量特征向量映射到所需的类数；该网络总共有23个卷积层；采用无 padding 的 Conv，空间分辨率会越卷越小。
网络初始化采高斯分布，标准差为 $\sqrt{2}$ ，N denotes the number of incoming nodes of one neuron.

4.2 Loss Function

输入图像及其对应的分割图用于通过Caﬀe的随机梯度下降实现来训练网络。为了最大程度地减少开销并最大程度地利用GPU内存，作者在 large input tiles over a large batch size ，从而将 batch 减少为 a single image，因此，作者使用 high momentum （0.99）。能量函数是通过最终特征图上的像素级softmax与cross entropy loss 函数相结合来计算的。softmax定义：
5) $p_k(x) = \frac{e^{a_k(x)}}{\sum_{k'=1}^{K}e^{a_{k'}(x)}}$

$x\in R^{2}$ :横纵坐标
$k$ 是特征图的 $k - t h$ 通道， $K$ 是类别数
$a_{k\left ( x \right )}$ 是特征图的 $k - t h$ 通道像素点 $x$ 的激活值

cross entropy 定义：
$E=-\sum_{x \in \mathbb{R}^2}w(x)log(p_{l(x)}(x))$
对 $x$ 进行了加权，损失中多了一项 $w (x)$
- $l (x)$ 属于 $\left \{ 1,.....,K \right \}$ ，表示每个像素 $x$ 的标签
- $w(x)\in R$ ：是一个权重图，让一些像素在训练的时候，权重更大！根据 GT计算得到，计算方式如下
$w_c(x)+w_0·e^{-\frac{(d_1(x)+d_2(x))^2}{2\sigma^2}}$

$w_{c}\left ( x\right )$ 是不同类别的基础权重值
$d_{1}\left ( x\right )\in R$ 表示当前像素离最近细胞边界的距离
$d_{2}\left ( x\right )\in R$ 表示当前像素离第二近的细胞边界的距离
$\omega _{0}=10,\sigma =5$
如果像素离边界比较近，那么 $d_{1}\left ( x\right )$ 和 $d_{2}\left ( x\right )$ 小， $w (x)$ 比较大；如果像素离边界比较远，那么 $d_{1}\left ( x\right )$ 和 $d_{2}\left ( x\right )$ 大， $w (x)$ 比较小；以此来达到加大边界权重的效果。

4.3 Data Augmentation

当只有少量训练样本可用时，Data Augmentation对于向网络提供所需的不变性和鲁棒性至关重要。作者采用elastic deformations来作为数据增强。

5 Experiments

5.1 Datasets

EM segmentation challenge（电子显微镜场景）：segmentation of neuronal structures in electron microscopic recordings，ISBI 2012 开始，30 images (512x512 pixels)，评价指标，warping error、Rand error、pixel error。
a cell segmentation task in light microscopic images（光学显微镜场景）：part of the ISBI cell tracking challenge 2014 and 2015
- *PhC-U373 数据集，35 partially annotated training images，评价指标 IoU
- DIC-HeLa 数据集，20 partially annotated training images，评价指标 IoU

5.2 EM segmentation challenge

在这里插入图片描述
warping error、Rand error、pixel error越小越好。

5.3 PhC-U373 and DIC-HeLa

在这里插入图片描述
IOU越大越好。

6 Conclusion

U-Net体系结构在不同的生物医学分割应用中实现了非常好的性能。
使用镜像复制，为边缘的分割提供上下文信息，提供了一种无缝分割高分辨率的图像的解决思路。
使用elastic deformations的数据增强，它仅需要很少的带注释的图像，并且在NVidia Titan GPU（6 GB）上只有10小时的合理的训练时间。
提供完整的基于Caﬀe 的实施方案和训练好的网络。