【CNN学习之路】语义分割网络架构

康仔00718

已于 2024-08-06 11:41:29 修改

阅读量635

点赞数 24

文章标签：网络

于 2024-08-06 11:34:55 首次发布

本文链接：https://blog.csdn.net/weixin_44095109/article/details/140950795

版权

语义分割是计算机视觉领域中的一个重要任务，旨在将图像中的每个像素分配给一个特定的类别标签。随着深度学习技术的发展，涌现出了多种用于语义分割的网络架构。这些网络架构在设计上各有特色，适用于不同的应用场景和数据集。

语义分割应用场景

自动驾驶 — 通过区分道路与障碍物，比如行人、人行道、电线杆和其他汽车，让汽车识别可行驶的路径。
工业检测— 用于检测材料中的缺陷，如晶圆检验。
卫星影像— 用于识别高山、河流、沙漠和其他地形。
医学成像— 用于分析和检测细胞中的癌变。
机器人视觉— 用于识别物体和地形并进行导航。

主流语义分割网络架构

FCN（Fully Convolutional Networks）
- 简介：FCN通过将传统分类网络中的全连接层替换为卷积层，实现了端到端的语义分割。它可以与多种骨干网络结合，以提取图像特征并进行像素级分类。
- 特点：全卷积结构，上采样与反卷积，跳跃连接。
- 适配的骨干网络：VGG、ResNet等。
U-Net
- 简介：U-Net是一种专为医学图像分割设计的网络结构，采用了U形的网络结构，包括左边的收缩路径和右边的对称扩张路径。
- 特点：U形结构，拼接融合，弹性变形数据增强。
- 适配的骨干网络：虽然U-Net本身就是一个完整的架构，但也可以将其编码器部分替换为其他骨干网络，如ResNet、DenseNet等。
SegNet
- 简介：SegNet是一种用于自动驾驶的图像语义分割深度网络，与U-Net类似，但提出了记录池化的位置并在反池化时恢复。
- 特点：编码-解码结构，去池化上采样。
- 适配的骨干网络：VGG等。
PSPNet（Pyramid Scene Parsing Network）
- 简介：PSPNet通过在特征图中引入金字塔池化模块来聚合不同尺度的上下文信息。
- 特点：金字塔池化模块，全局上下文信息。
- 适配的骨干网络：ResNet + 空洞卷积等。
DeepLab系列
- 简介：DeepLab系列是由Google团队设计的一系列语义分割网络模型，包括DeepLabv1、DeepLabv2、DeepLabv3和DeepLabv3+等版本。
- 特点：空洞卷积，ASPP模块，编码器-解码器结构。
- 适配的骨干网络：ResNet、MobileNetv3等。
HRNet（High-Resolution Net）
- 简介：HRNet通过在网络的不同分支中保持多个分辨率的特征图，并通过高分辨率和低分辨率的交互来保留更多的细节信息。
- 特点：多分辨率特征金字塔，多层级信息融合，高分辨率信息保留。
- 适配的骨干网络：HRNet自身。
UNet++
- 简介：UNet++是U-Net的改进版本，继承了U-Net的结构并借鉴了DenseNet的稠密连接方式。
- 特点：密集连接的多级UNet结构，嵌套连接与跳跃连接，特征重组和特征融合。
OCRNet（Object-Contextual Representations for Semantic Segmentation）
- 简介：OCRNet通过计算物体区域特征表示与像素特征表示之间的相似度来增强像素的上下文信息。
- 特点：物体上下文信息，区域特征表示。
SETR（Segmentation Transformer）
- 简介：SETR是基于Transformer结构进行语义分割的模型，它使用纯Transformer结构的编码器来代替CNN编码器。
- 特点：Image to sequence 图像序列化方法，Transformer架构，多种解码上采样方式。
SegFormer
- 简介：SegFormer是一种轻量级的语义分割Transformer模型，它引入了重叠的patch embedding来保持patch的局部连续性。
- 特点：重叠patch embedding，轻量级Transformer编码器，简单的解码器结构。