UNet论文详解分析

最新推荐文章于 2024-07-02 00:05:18 发布

殇银

最新推荐文章于 2024-07-02 00:05:18 发布

阅读量1.1w

点赞数 3

分类专栏： UNet 文章标签：深度学习

本文链接：https://blog.csdn.net/zx6571/article/details/124360073

版权

UNet 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文地址：https://arxiv.org/abs/1505.04597

一、概要

2015年UNet的出现使得原先需要数千个带注释的数据才能进行训练的深度学习神经网络大大减少了训练所需要的数据量，并且其针对神经网络在图像分割上的应用开创了先河。

当时神经网络在图像分类任务上已经有了较好的成果，但在很多视觉的任务中由于输出需要进行定位，也就是每个像素需要分配一个类标签，这导致成千上万的训练图像在生物医学任务中通常难以获得，从而急需要一个神经网络，它不需要那么多的数据来进行训练却依旧有较好的效果，这就导致了UNet的诞生。

二、介绍

UNet是原作者在所谓“全卷积网络”（FCN）的基础上，进行的修改与拓展所实现的神经网络。“全卷积网络”的思想是通过连续的层来补充通常的收缩网络，其中池化层中的部分操作被上采样层所取代，从而能增加输出的分辨率。同时为了进行定位，将收缩路径的高分辨率特征与上采样进行结合，使得一个连续的卷积层能够根据信息来得到一个更准确的输出。

作者在上采样部分也有较大的修改，他们在那块也有大量的特征通道，从而允许网络的上下文信息能够传播到更高分辨率的层上。因此膨胀路径与收缩路径能够接近对称，产生一个U形结构。由于该网络没有完全连接的层，且只使用每个卷积的有效部分，即分割映射只包含像素，这样完整的上下部分能够在输入图像上使用。从而实现对任意大的图像进行无缝的切割。

为了预测图像的边界区域中的像素，该网络通过镜像来输入图像推断缺失的部分，这样能够保证分辨率不会受到GPU内存的影响。

由于实际应用中的数据量可能不会很多，作者在其中增加了数据增强的内容，保证神经网络能够进行较好的训练。

在许多细胞分割任务中，难点是如何分离同一类的触摸对象。为此，作者建议使用加权损失，即通过在接触单元之间增加分离背景标签，使得其能够在损失函数中获得了很大的权重。从而能够实现较好的分割效果。

三、网络结构

UNet网络整齐呈一个U形的结构，左半部分是收缩路径，右半部分是膨胀路径。收缩路径按照卷积神经网络的基本结构，重复应用了两个3*3的卷积单元，每个卷积单元的后面都是一个ReLU跟一个2*2maxpooling，步幅为2来用于下采样。每个降采样的过程中作者都会将特征通道的数量增加一倍。扩展路径中的每一步都包括一个特征图的上采样，然后是一个2*2的卷积（“上卷积”），它使特征通道的数量减半，与从收缩路径中相应裁剪的特征映射进行连接，以及两个3*3卷积单元，每个后面跟着一个ReLU。由于在每次卷积中都丢失边界像素，裁剪是必要的。在最后一层，使用1*1的卷积单元将每个64个分量的特征向量映射到所需的类的数量。该网络总共有23个卷积层。

训练时需要利用Caffe的随机梯度下降来进行实现，由于卷积未填充完整，作者为了最大化利用GPU的内存，将批量处理输入图片改为了单个图片进行处理，从而优化了训练过程。同时，作者在一个标准差为p2/N的高斯分布上来提取初始的权值，针对UNet实现权值初始化。

四、个人补充

在阅读了这篇论文后，我认为UNet有两个最大的特点，U型结构以及跳层连接。

UNet的encoder下采样4次，一共下采样16倍，对称地，其decoder也相应上采样4次，将encoder得到的高级语义特征图恢复到原图片的分辨率。相比于FCN和Deeplab等，UNet共进行了4次上采样，并在同一个stage使用了跳层连接，而不是直接在高级语义特征上进行监督和loss反传，这样就保证了最后恢复出来的特征图融合了更多的low-level的feature，也使得不同scale的feature得到了的融合，从而可以进行多尺度预测和DeepSupervision。4次上采样也使得分割图恢复边缘等信息更加精细。（其中的encoder对应的是左半部分的收缩路径，decoder对应的是右半部分的膨胀路径）

UNet的跳层连接中联系了输入图像的很多信息，有助于还原降采样所带来的信息损失，在一定程度上，我个人觉得它和残差的操作非常类似，也就是residual操作，x+f(x)。

至于为什么是4次的上采样与下采样，原文并没有给出准确的解释，也正是如此，另一位作者在这个的基础上提出了UNet++，其在原先UNet的跳层连接中加入了一系列的短链接，从而优化了分割网络结构，这个我后续再讨论。

最后，UNet的好处我感觉是：网络层越深得到的特征图，有着更大的视野域，浅层卷积关注纹理特征，深层网络关注本质的那种特征，所以深层浅层特征都是有格子的意义的；另外一点是通过反卷积得到的更大的尺寸的特征图的边缘，是缺少信息的，毕竟每一次下采样提炼特征的同时，也必然会损失一些边缘特征，而失去的特征并不能从上采样中找回，因此通过特征的拼接，来实现边缘特征的一个找回。

参考资料：

研习U-Net - 知乎 (zhihu.com)

图像分割必备知识点 | Unet详解理论+ 代码 - 知乎 (zhihu.com)

殇银

关注

3
点赞
踩
45

收藏

觉得还不错? 一键收藏
0
评论
UNet论文详解分析

论文地址：https://arxiv.org/abs/1505.04597一、概要2015年UNet的出现使得原先需要数千个带注释的数据才能进行训练的深度学习神经网络大大减少了训练所需要的数据量，并且其针对神经网络在图像分割上的应用开创了先河。当时神经网络在图像分类任务上已经有了较好的成果，但在很多视觉的任务中由于输出需要进行定位，也就是每个像素需要分配一个类标签，这导致成千上万的训练图像在生物医学任务中通常难以获得，从而急需要一个神经网络，它不需要那么多的数据来...
复制链接

扫一扫

专栏目录