深度学习和计算机视觉中的backbone

最新推荐文章于 2024-06-22 19:37:00 发布

PromptOnce

最新推荐文章于 2024-06-22 19:37:00 发布

阅读量609

点赞数 5

文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_45596561/article/details/139374211

版权

在深度学习和计算机视觉中，“backbone” 是指深度神经网络的主要部分，通常用于特征提取。骨干网络通过卷积操作提取图像中的低级和高级特征，为后续的特定任务（如分类、检测、分割等）提供丰富的信息。这些骨干网络一般是预训练的，即在大型数据集（如ImageNet）上进行训练，以便在各种下游任务中实现良好的性能。以下是对深度学习和计算机视觉中骨干网络的详细解释：

1. 主要骨干网络

ResNet（残差网络）

ResNet 是一种非常流行的骨干网络，由残差块组成，这些块通过跳跃连接解决了深层网络中的梯度消失问题。ResNet 可以有不同的深度，如 ResNet-18、ResNet-50、ResNet-101 等。以下是 ResNet 的一个基本残差块：

class BasicBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(BasicBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.shortcut = nn.Sequential()

        if in_channels != out_channels:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=1),
                nn.BatchNorm2d(out_channels)
            )

    def forward(self, x):
        out = self.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        out += self.shortcut(x)
        out = self.relu(out)
        return out

VGG（Visual Geometry Group 网络）

VGG 是另一种经典的骨干网络，结构简单，由多个卷积层和池化层组成。VGG 的特点是使用小的卷积核（3x3）和较深的网络（如 VGG-16、VGG-19）。以下是一个简化的 VGG 模型：

class VGG(nn.Module):
    def __init__(self):
        super(VGG, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(64, 128, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            # 继续添加卷积层和池化层
        )
        self.classifier = nn.Sequential(
            nn.Linear(128 * 8 * 8, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, 1000)
        )

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

MobileNet

MobileNet 是为移动和嵌入式设备设计的轻量级骨干网络。它使用深度可分离卷积来减少计算量和参数数量。以下是一个简单的 MobileNet 模块：

class DepthwiseSeparableConv(nn.Module):
    def __init__(self, in_channels, out_channels, stride=1):
        super(DepthwiseSeparableConv, self).__init__()
        self.depthwise = nn.Conv2d(in_channels, in_channels, kernel_size=3, stride=stride, padding=1, groups=in_channels)
        self.pointwise = nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=1)
        self.bn = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)

    def forward(self, x):
        x = self.depthwise(x)
        x = self.pointwise(x)
        x = self.bn(x)
        x = self.relu(x)
        return x

2. 使用骨干网络进行下游任务

图像分类

在图像分类中，通常会使用预训练的骨干网络来提取特征，然后添加一个新的分类头进行特定任务的分类。例如：

import torch
import torch.nn as nn
from torchvision import models

# 加载预训练的 ResNet-50 模型
backbone = models.resnet50(pretrained=True)

# 修改最后一层，使其适应我们的分类任务
num_features = backbone.fc.in_features
backbone.fc = nn.Linear(num_features, 10)  # 假设我们有 10 个类别

# 打印模型架构
print(backbone)

目标检测

在目标检测任务中，如 Faster R-CNN、YOLO、SSD 等，骨干网络用于提取特征图，这些特征图将用于预测边界框和类别。例如，Faster R-CNN 使用骨干网络生成特征图，然后通过区域提议网络（RPN）生成候选区域：

import torch
import torchvision
from torchvision.models.detection import FasterRCNN
from torchvision.models.detection.rpn import AnchorGenerator

# 加载预训练的 ResNet-50 模型
backbone = torchvision.models.resnet50(pretrained=True)
backbone = torch.nn.Sequential(*list(backbone.children())[:-2])
backbone.out_channels = 2048

# 定义RPN锚点生成器
rpn_anchor_generator = AnchorGenerator(
    sizes=((32, 64, 128, 256, 512),),
    aspect_ratios=((0.5, 1.0, 2.0),) * 5
)

# 定义特征图裁剪池化
roi_pooler = torchvision.ops.MultiScaleRoIAlign(
    featmap_names=['0'],
    output_size=7,
    sampling_ratio=2
)

# 定义 Faster R-CNN 模型
model = FasterRCNN(
    backbone,
    num_classes=91,  # COCO 数据集有 80 个类 + 1 个背景类
    rpn_anchor_generator=rpn_anchor_generator,
    box_roi_pool=roi_pooler
)

# 打印模型架构
print(model)

语义分割

在语义分割任务中，如 UNet、DeepLab 等，骨干网络用于提取多尺度特征，然后通过解码器部分生成像素级别的预测。例如，DeepLab 使用骨干网络提取特征，并通过空洞卷积和解码器进行分割：

import torch
import torch.nn as nn
from torchvision import models

# 加载预训练的 ResNet-50 模型
backbone = models.resnet50(pretrained=True)

# 修改 ResNet-50，去掉最后的全连接层
backbone = nn.Sequential(*list(backbone.children())[:-2])

# 定义 DeepLab 的空洞卷积部分和解码器部分
class DeepLabHead(nn.Sequential):
    def __init__(self, in_channels, num_classes):
        super(DeepLabHead, self).__init__(
            nn.Conv2d(in_channels, 256, kernel_size=3, padding=1, dilation=1),
            nn.BatchNorm2d(256),
            nn.ReLU(),
            nn.Conv2d(256, num_classes, kernel_size=1)
        )

# 定义 DeepLab 模型
class DeepLab(nn.Module):
    def __init__(self, backbone, classifier):
        super(DeepLab, self).__init__()
        self.backbone = backbone
        self.classifier = classifier

    def forward(self, x):
        x = self.backbone(x)
        x = self.classifier(x)
        return x

# 实例化 DeepLab 模型
model = DeepLab(backbone, DeepLabHead(2048, 21))  # 假设有 21 个分割类
print(model)

结论

在深度学习和计算机视觉中，骨干网络是用于特征提取的核心组件。选择合适的骨干网络并根据具体任务进行调整，是实现高效和准确模型的关键。通过利用预训练的骨干网络，可以加速训练过程，并在各种视觉任务中取得良好的性能。

PromptOnce

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
深度学习和计算机视觉中的backbone

在深度学习和计算机视觉中，“backbone” 是指深度神经网络的主要部分，通常用于特征提取。骨干网络通过卷积操作提取图像中的低级和高级特征，为后续的特定任务（如分类、检测、分割等）提供丰富的信息。这些骨干网络一般是预训练的，即在大型数据集（如ImageNet）上进行训练，以便在各种下游任务中实现良好的性能。
复制链接

扫一扫