U-Net 用于生物医学图像分割的卷积神经网络架构

yuumi_DL

已于 2024-08-21 13:53:08 修改

阅读量2.2k

点赞数 36

分类专栏：语义分割文章标签： cnn 人工智能神经网络

于 2024-08-21 13:34:19 首次发布

本文链接：https://blog.csdn.net/weixin_46831727/article/details/141390831

版权

语义分割专栏收录该内容

2 篇文章

订阅专栏

论文题目：U-Net: Convolutional Networks for Biomedical
Image Segmentation
论文地址：https://arxiv.org/pdf/1505.04597

U-Net是一种广泛应用于图像分割任务的卷积神经网络架构，最初由Olaf Ronneberger等人在2015年提出。尽管它最初是为生物医学图像分割设计的，但由于其强大的特征提取和精细分割能力，U-Net已经被应用于各种其他领域。

什么是U-Net？

U-Net是一种基于全卷积网络（Fully Convolutional Network, FCN）的图像分割架构。它的独特之处在于其“U”形结构，由对称的编码器（Encoder）和解码器（Decoder）组成。编码器负责从图像中提取多尺度特征，而解码器则将这些特征逐步恢复到原始分辨率，从而生成高精度的分割结果。
在这里插入图片描述

2. U-Net的网络架构

U-Net的架构由两个主要部分组成：收缩路径（encoder）和扩展路径（decoder）。

U-Net架构详细示例

1. 收缩路径（编码器）

收缩路径的作用是提取图像的多尺度特征，并逐步降低图像的分辨率。具体步骤如下：

步骤1：输入大小为 $\textcolor{red}{256 \times 256}$ 的图像，通过第一次卷积操作，使用 $\textcolor{red}{3 \times 3}$ 的卷积核，得到 $\textcolor{red}{256 \times 256 \times 64}$ 的特征图。
步骤2：再进行一次 $\textcolor{red}{3 \times 3}$ 卷积操作，保持特征图的大小不变，输出仍然是 $\textcolor{red}{256 \times 256 \times 64}$ 。
步骤3：通过 $\textcolor{red}{2 \times 2}$ 的最大池化操作（Max Pooling），将特征图的分辨率减半，输出为 $\textcolor{red}{128 \times 128 \times 128}$ 。
步骤4：重复上述卷积和池化操作，最终得到 $\textcolor{red}{16 \times 16 \times 512}$ 的特征图。
- $\text{Conv1: } \left(\textcolor{red}{128 \times 128 \times 128}\right) \to \left(\textcolor{red}{128 \times 128 \times 128}\right)$
- $\text{Conv2: } \left(\textcolor{red}{128 \times 128 \times 128}\right) \to \left(\textcolor{red}{128 \times 128 \times 128}\right)$
- $\text{Pooling: } \left(\textcolor{red}{128 \times 128 \times 128}\right) \to \left(\textcolor{red}{64 \times 64 \times 256}\right)$
- 最终输出为： $\left(\textcolor{red}{16 \times 16 \times 512}\right)$

2. 扩展路径（解码器）

扩展路径用于将编码器提取的特征恢复到原始分辨率，同时生成最终的分割图。具体步骤如下：

步骤1：将 $\textcolor{red}{16 \times 16 \times 512}$ 的特征图通过反卷积操作（也称为上采样）扩展为 $\textcolor{red}{32 \times 32 \times 256}$ 。
步骤2：将扩展后的特征图与编码器中对应层的 $\textcolor{red}{32 \times 32 \times 256}$ 特征图拼接（Concatenate），得到 $\textcolor{red}{32 \times 32 \times 512}$ 的特征图。
步骤3：再进行两次 $\textcolor{red}{3 \times 3}$ 卷积操作，将特征图精细化，输出为 $\textcolor{red}{32 \times 32 \times 256}$ 。
- $\text{Conv1: } \left(\textcolor{red}{32 \times 32 \times 512}\right) \to \left(\textcolor{red}{32 \times 32 \times 256}\right)$
- $\text{Conv2: } \left(\textcolor{red}{32 \times 32 \times 256}\right) \to \left(\textcolor{red}{32 \times 32 \times 256}\right)$
步骤4：重复上采样和拼接操作，逐步恢复图像的分辨率，最终将特征图恢复为 $\textcolor{red}{256 \times 256 \times 64}$ 。
- $\text{Upsampling: } \left(\textcolor{red}{32 \times 32 \times 256}\right) \to \left(\textcolor{red}{64 \times 64 \times 128}\right)$
- $\text{Concatenate: } \left(\textcolor{red}{64 \times 64 \times 128}\right) + \left(\textcolor{red}{64 \times 64 \times 128}\right) \to \left(\textcolor{red}{64 \times 64 \times 256}\right)$
- $\text{Final Output: } \left(\textcolor{red}{256 \times 256 \times 64}\right)$
最后一层：使用 $\times 1$ 卷积，将 $\textcolor{red}{256 \times 256 \times 64}$ 的特征图映射到最终的类别数（例如：分割3个类别，输出为 $\textcolor{red}{256 \times 256 \times 3}$ ）。
- 公式： $\text{Final Conv: } \left(\textcolor{red}{256 \times 256 \times 64}\right) \to \left(\textcolor{red}{256 \times 256 \times 3}\right)$

反卷积举例
假设我们有一个大小为 $\textcolor{red}{2 \times 2}$ 的输入特征图和一个 $\textcolor{red}{2 \times 2}$ 的卷积核，我们希望通过反卷积操作将其扩展为一个 $\textcolor{red}{4 \times 4}$ 的输出特征图。
1. 输入特征图和卷积核

输入特征图：
$\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}$
卷积核（假设所有元素均为 $1$ ）：
$\begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix}$

2. 初始化输出特征图
我们初始化一个全零的 $\textcolor{red}{4 \times 4}$ 的输出特征图：
$\begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix}$
3. 逐步计算反卷积
步骤1：处理输入特征图的第一个元素 $1$

卷积核与第一个元素相乘：
$\begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix} \times 1 = \begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix}$
将结果累加到输出特征图的左上角：
$\text{输出特征图} = \begin{bmatrix} 1 & 1 & 0 & 0 \\ 1 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix}$

步骤2：处理输入特征图的第二个元素 $2$

卷积核与第二个元素相乘：
$\begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix} \times 2 = \begin{bmatrix} 2 & 2 \\ 2 & 2 \end{bmatrix}$

将结果累加到输出特征图的右上角：
$\text{输出特征图} = \begin{bmatrix} 1 & 3 & 2 & 0 \\ 1 & 3 & 2 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix}$

步骤3：处理输入特征图的第三个元素 $3$

卷积核移动到下一行与第三个元素相乘：
$\begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix} \times 3 = \begin{bmatrix} 3 & 3 \\ 3 & 3 \end{bmatrix}$

将结果累加到输出特征图的左下角：
$\text{输出特征图} = \begin{bmatrix} 1 & 3 & 2 & 0 \\ 4 & 6 & 2 & 0 \\ 3 & 3 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix}$

步骤4：处理输入特征图的第四个元素 $4$

卷积核与第四个元素相乘：
$\begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix} \times 4 = \begin{bmatrix} 4 & 4 \\ 4 & 4 \end{bmatrix}$

将结果累加到输出特征图的右下角：
$\text{最终输出特征图} = \begin{bmatrix} 1 & 3 & 2 & 0 \\ 4 & 10 & 6 & 0 \\ 3 & 7 & 4 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix}$

通过以上步骤，我们将输入的 $\textcolor{red}{2 \times 2}$ 特征图通过反卷积操作扩展为 $\textcolor{red}{4 \times 4}$ 的输出特征图。在每一步中，输入特征图的元素与卷积核进行点积，并将结果累加到输出特征图的相应位置。反卷积的主要作用是“放大”特征图的空间维度，从而恢复图像的分辨率。