Unet相关知识及网络解析

飞人博尔特的摄影师

于 2023-09-04 11:52:53 发布

阅读量268

点赞数

分类专栏：计算机视觉 python 文章标签：人工智能经验分享 python 算法机器学习神经网络深度学习

本文链接：https://blog.csdn.net/weixin_45277117/article/details/132611913

版权

python 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

计算机视觉

3 篇文章 2 订阅

订阅专栏

这里写目录标题

Unet

Unet

网络概述

在这里插入图片描述
Unet经典网络，无更改；

2015年提出的UNet模型是我们学习语义分割必学的一个优秀模型，它兼具轻量化与高性能，因此通常作为语义分割任务的基线测试模型，至今仍是如此，其优秀程度可见一斑。

UNet从本质上来说也属于一种全卷积神经网络模型，它的取名来源于其架构形状：模型整体呈现"U"形。它的出生是为了解决医疗影像语义分割问题的，但之后几年的发展，也证实了它是语义分割任务中的全能选手，或许这就是优秀网络架构的优异之处。

图像分类有ResNet，语义分割有UNet，目标检测有YOLO，NLP有Transformer，生成式AI有Diffusion Model。

网络详解

由于这里我们进行图像缺陷检测，为了方便数据提取，需要对中间层做一些改动

下采样

主要是起到提取特征的作用

步骤：先进行最大池化，ks=2，然后进行两次卷积单元

下采样由一次池化何两次卷积单元组成
两次卷积单元也叫DoubleConv，由Conv2d，BatchNorm2d，ReLU组成

class DoubleConv(nn.Module):
    """(convolution => [BN] => ReLU) * 2"""

    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.double_conv = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True),
            nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True)
        )

    def forward(self, x):
        return self.double_conv(x)

完整下采样单元

class Down(nn.Module):
    """Downscaling with maxpool then double conv"""

    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.maxpool_conv = nn.Sequential(
            nn.MaxPool2d(2),
            DoubleConv(in_channels, out_channels)
        )

    def forward(self, x):
        return self.maxpool_conv(x)

下采样代表网络中的前四个单元
在这里插入图片描述

上采样

主要是起到拼接特征的作用

步骤：

上采样插值
计算要进行拼接的两个输入参数维度偏差，比如(128,128)，(64,64),diff等于64和64
将维度小的周围填0(nn.functional.pad)，使得输入x1和x2维度一样，然后concat
然后双卷积，注意，此处由于拼接了，所以卷积的输入通道，是函数是两个输入的通道之和

class Up(nn.Module):
    """Upscaling then double conv"""

    def __init__(self, in_channels, out_channels, bilinear=True):
        super().__init__()

        # if bilinear, use the normal convolutions to reduce the number of channels
        if bilinear:
            self.up = nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True)
        else:
            self.up = nn.ConvTranspose2d(in_channels // 2, in_channels // 2, kernel_size=2, stride=2)

        self.conv = DoubleConv(in_channels, out_channels)

    def forward(self, x1, x2):
        x1 = self.up(x1)
        # input is CHW
        diffY = torch.tensor([x2.size()[2] - x1.size()[2]])
        diffX = torch.tensor([x2.size()[3] - x1.size()[3]])

        x1 = F.pad(x1, [diffX // 2, diffX - diffX // 2,
                        diffY // 2, diffY - diffY // 2])

        x = torch.cat([x2, x1], dim=1)
        return self.conv(x)

输出

最简单的一个卷积，输出通道数是类别

class OutConv(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(OutConv, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)

    def forward(self, x):
        return self.conv(x)

完整网络代码

class UNet(nn.Module):
    def __init__(self, n_channels, n_classes, bilinear=True):
        super(UNet, self).__init__()
        self.n_channels = n_channels
        self.n_classes = n_classes
        self.bilinear = bilinear

        self.inc = DoubleConv(n_channels, 64)
        self.down1 = Down(64, 128)
        self.down2 = Down(128, 256)
        self.down3 = Down(256, 512)
        self.down4 = Down(512, 512)
        self.up1 = Up(1024, 256, bilinear)
        self.up2 = Up(512, 128, bilinear)
        self.up3 = Up(256, 64, bilinear)
        self.up4 = Up(128, 64, bilinear)
        self.outc = OutConv(64, n_classes)

    def forward(self, x):
        x1 = self.inc(x)
        x2 = self.down1(x1)
        x3 = self.down2(x2)
        x4 = self.down3(x3)
        x5 = self.down4(x4)
        x = self.up1(x5, x4)
        x = self.up2(x, x3)
        x = self.up3(x, x2)
        x = self.up4(x, x1)
        logits = self.outc(x)
        return logits

注意点，Sigmoid VS softmax

在进行本质是二分类的语义分割时，计算probs的归一化函数请用sigmoid；
在进行本质是多分类的语义分割时，请用softmax
原因：
sigmoid何softmax都是非线性激活函数，本质在于
在这里插入图片描述

softmax相较于sigmoid，会计算j个类别的百分比，而sigmoid计算的只是1-的百分比

在两类逻辑回归中，使用sigmoid函数预测的概率如下：
在这里插入图片描述
在多类逻辑回归中，K类，预测概率如下，使用softmax函数：

Softmax vs Sigmoid function in Logistic classifier?

简单点说，sigmoid只能表示“是不是这个的概率”，而softmax可以表示每一个可能性的概率
在这里插入图片描述
另外
如果在train时，突然把sigmoid换成softmax，或者反过来，在进行推理的时候也要注意，要同步修改，并且你对应标注的label也要修改，因为我们生成label的格式一般都是背景灰度是0，类别1灰度是1，一次类推来生成mask图。shape是【1，h，w】，对应到unet输出，维度并不一样；那么对应loss对比的维度也不一样，所以要做postprocess，同时对应选择sigmoid或者softmax

在网络输出中，【b，c，h，w】，b是batch，c是类别通道(不是图片通道)，而你的标注是【b，1，h，w】，在进行普通的softmax后，要对loss进行分析格式化，不然得到的loss是假loss

Multi-label vs. Multi-class Classification: Sigmoid vs. Softmax

具体看下一篇博客

飞人博尔特的摄影师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Unet相关知识及网络解析

Unet经典网络，无更改；2015年提出的UNet模型是我们学习语义分割必学的一个优秀模型，它兼具轻量化与高性能，因此通常作为语义分割任务的基线测试模型，至今仍是如此，其优秀程度可见一斑。UNet从本质上来说也属于一种全卷积神经网络模型，它的取名来源于其架构形状：模型整体呈现"U"形。它的出生是为了解决医疗影像语义分割问题的，但之后几年的发展，也证实了它是语义分割任务中的全能选手，或许这就是优秀网络架构的优异之处。
复制链接

扫一扫