Paper Reading:U-Net

Alrick Meng

已于 2022-05-02 20:22:12 修改

阅读量4.4k

点赞数

文章标签：计算机视觉深度学习神经网络

于 2022-03-15 14:21:36 首次发布

本文链接：https://blog.csdn.net/yihool_/article/details/123456977

版权

Introduction
背景：生物医学图片中，往往每个像素都需要位置信息，并且存在训练样本不足的情况。应该为每个像素分配一个类别标签。
有人提出了一种模型，这个模型通过滑动窗口，对每个像素及其周围的局部区域进行预测从而给出每个像素的类别。这个模型有两个不足，一个是速度很慢，因为网络单独为每一个局部区域运行一次；另外这些patches有很多重叠。第二，在定位精度和patches的大小选择上很难权衡。patch的size越大，就需要越多的max-pooling层，这样会减小定位精度，而太小的patch-size只能让网络感受到图片很小一部分的内容。
最近有论文提出分类器使用多重特征，可以兼顾到定位精度和上下文选择（感受野大小）。

本文的网络结构的一个重要改进是在上采样部分依然有很多的特征通道，而这能够将更多的特征信息传至更高分辨率的层中。
3. 在这里插入图片描述
注：每个蓝色的框代表一个多通道特征图，通道数标在蓝框上方，特征的大小标在蓝框的左边，白框表示复制的特征图(???)，不同颜色的箭头表示不同的操作。

此任务中，训练样本很少，我们将训练样本进行弹性变形(elastic deformations)，以便网络学习到这些变形中的不变性，而不需要去标注数据集中看到这些转换。

Network Architecture
2.1 网络包含两部分结构，contracting path 和expansive path。
连部分结构中的卷积都是无填充卷积
在expansive path中的2*2卷积都是反卷积
在连接操作中，crop很有必要，因为在卷积操作中丢失了很多边缘像素（border pixels）

为了减少消耗并最大限度利用GPU内存，倾向于使用大的输入块儿而不是大的batch-size，并将batch-size减小为单个图像。

使用大动量，momentum(0.99)，这样之前看到的训练样本就决定了下次优化中的更新。
2.2 损失函数
略
2.3 数据增强
数据增强可以让模型学习到不变性并增强鲁棒性。
对于显微图片，主要使用转移和旋转不变性，以及变形和灰度值的鲁棒性。这其中，随即变形是一个很重要的操作。使用粗糙的3*3网格来实现平滑的随即位移形变。

注：FCN(全卷积网络)

FCN于CNN
CNN多用于分类和回归任务，最后通过多个全连接层生成一个特征向量用于表示类别概率。
FCN用于语义任务，即为每个像素都进行预测。与CNN只能接受固定尺寸图像不同，FCN在最后一个卷积层的特征图上采用反卷积（上采样），使特征图达到原始图像尺寸，从而对每一个像素都进行分类，同时保持像素空间信息。
FCN把CNN最后的全连接层换成卷积层，输出一张已经label好的图。
FCN和U-Net
2.1 U-Net是FCN的一种变体，都是Encoder-Decoder结构。
2.2 上采样中FCN使用反卷积，U-Net使用插值（双线性插值bilinear）。
2.3 FCN中深层信息和浅层信息的融合方式为对应像素相加，U-Net中为通道拼接。
这两种方式的区别：对应像素相加后，每个特征图拥有了更多的信息，这对于分类任务来说是一个高效的方法。而拼接保留了更多的维度/位置信息，使后面的layer可以在深层信息和浅层信息之间自由选择，这对于语义分割任务来说更有优势。

Alrick Meng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Paper Reading:U-Net

Introduction背景：生物医学图片中，往往每个像素都需要位置信息，并且存在训练样本不足的情况。应该为每个像素分配一个类别标签。有人提出了一种模型，这个模型通过滑动窗口，对每个像素及其周围的局部区域进行预测从而给出每个像素的类别。这个模型有两个不足，一个是速度很慢，因为网络单独为每一个局部区域运行一次；另外这些patches有很多重叠。第二，在定位精度和patches的大小选择上很难权衡。patch的size越大，就需要越多的max-pooling层，这样会减小定位精度，而太小的patch-si.
复制链接

扫一扫