1. U-Net架构
U-Net 是一种用于图像分割的深度学习模型,最初由 Olaf Ronneberger 等人于 2015 年提出。它的设计目的是在医学图像分割等任务中有效地从像素级别的标签中提取信息。U-Net以其高效的训练策略和良好的分割效果广泛应用于医学图像处理、自动驾驶、遥感图像等领域。
U-Net架构特点
U-Net架构通常由两部分组成:
-
编码器(Contracting Path):
- 编码器负责提取输入图像的特征。它由一系列的卷积层(通常是2D卷积)和池化层(通常是最大池化)组成。每一层都将图像尺寸减半,同时增加特征通道的数量。编码器的目标是逐步提取更抽象、更高级的特征。
-
解码器(Expansive Path):
- 解码器负责将编码器提取的特征恢复到原始图像的空间分辨率,并生成每个像素的预测标签。解码器通过转置卷积(即上采样)逐步恢复图像的空间尺寸,并减少特征通道的数量。
-
跳跃连接(Skip Connections):
- U-Net最显著的特点之一是跳跃连接,它将编码器中每个卷积块的输出与解码器中相应位置的输出连接。跳跃连接帮助保留低层次的细节信息,防止在解码过程中丢失重要的空间信息。跳跃连接使得U-Net能够恢复细粒度的空间信息,尤其适合细粒度分割任务。
-
瓶颈层(Bottleneck Layer):
- 在U-Net的编码器和解码器之间有一个瓶颈层,通常是通过卷积操作提取特征并增加维度的最后一层。它的作用是聚合来自编码器的信息,成为解码器的输入。
U-Net架构的图示
Input Image -> [Encoder] -> [Bottleneck] -> [Decoder] -> Output Image (Segmentation Map)
| ^
V |
Skip Connections -----------
- 卷积层:提取特征。
- 池化层:逐渐减小空间尺寸,增加通道数。
- 转置卷积层:逐步恢复空间尺寸,减小通道数。
U-Net的优势是即使在数据量较小的情况下,依然能够表现出很好的性能,尤其适合医学影像中的分割任务。
2. ScoreNet模型
ScoreNet 是一种基于扩散模型(Diffusion Models)的生成模型,通常用于图像生成、去噪等任务。扩散模型通过在生成过程中逐渐添加噪声并通过去噪来恢复数据分布,ScoreNet是扩散模型中的一个具体实现。ScoreNet模型通过显式建模噪声与数据之间的关系,并将这种关系应用到生成任务中,能够生成高质量的图像或其他数据。
ScoreNet模型架构
ScoreNet 是一种结合了 得分匹配(Score Matching) 和 扩散过程(Diffusion Process) 的生成模型。它主要由以下几个部分组成:
-
扩散过程(Diffusion Process):
- 在扩散模型中,扩散过程通过向数据中逐渐加入噪声,直到数据完全变成噪声。这个过程通常是离散的,由一系列的时间步骤(t)构成。
- 该过程可以形式化为:
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t \mathbf{I}) q(x