PyTorch学习笔记（13）--现有网络模型的使用及修改

最新推荐文章于 2023-08-09 17:08:33 发布

我这一次

最新推荐文章于 2023-08-09 17:08:33 发布

阅读量4.5k

点赞数 8

分类专栏： PyTorch学习笔记文章标签： python 神经网络 pytorch

本文链接：https://blog.csdn.net/weixin_43981621/article/details/119786431

版权

PyTorch学习笔记专栏收录该内容

18 篇文章 182 订阅

订阅专栏

PyTorch学习笔记（13）–现有网络模型的使用及修改

本博文是PyTorch的学习笔记，第13次内容记录，主要介绍如何使用现有的神经网络模型，如何修改现有的网络模型。

1.现有网络模型

在现有的torchvision中提供了许多常见的神经网络模型，这些模型主要包括：分类、语义分割、目标检测、视频分类等类型，其中分类主要针对图像分类，包括AlexNet、VGG、ResNet、GoogLeNet等网络。具体情况可以参照PyTorch官网。详情如下截图所示：
在这里插入图片描述

2.现有模型的使用

2.1VGG16模型的结构

现以ImageNet数据集为例，神经网络选取VGG16，具体细节请参照PyTorch官网，VGG16的模型参数如下所示：
在这里插入图片描述
VGG16的函数定义结构为：torchvision.models.vgg16_bn(pretrained: bool = False, progress: bool = True, **kwargs: Any) → torchvision.models.vgg.VGG。其中pretrained参数表示是否使用已预训练的模型参数。通过代码调用现有VGG16模型如下：

import torchvision

vgg16_false = torchvision.models.vgg16(pretrained=False)
vgg16_true = torchvision.models.vgg16(pretrained=True)
print(vgg16_true)

该代码运行结果为输出vgg16模型的基本结构，但是一开始需要下载vgg16的模型文件，大小为528M，下载时间较长，代码运行效果如下所示：

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (17): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (18): ReLU(inplace=True)
    (19): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (20): ReLU(inplace=True)
    (21): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (22): ReLU(inplace=True)
    (23): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (24): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (25): ReLU(inplace=True)
    (26): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (27): ReLU(inplace=True)
    (28): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (29): ReLU(inplace=True)
    (30): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(7, 7))
  (classifier): Sequential(
    (0): Linear(in_features=25088, out_features=4096, bias=True)
    (1): ReLU(inplace=True)
    (2): Dropout(p=0.5, inplace=False)
    (3): Linear(in_features=4096, out_features=4096, bias=True)
    (4): ReLU(inplace=True)
    (5): Dropout(p=0.5, inplace=False)
    (6): Linear(in_features=4096, out_features=1000, bias=True)
  )
)

从上述运行结果可知：VGG16网络是由13层卷积层和3层全连接层组成，最后网络输出一共有1000个分类结果。

2.2修改现有VGG16模型的结构

在VGG16模型后增加一个线性层，实现将VGG16的1000个类别输出为CIFAR10的10个类别，代码如下：

# coding ：UTF-8
# 文件功能： 代码实现预训练模型的功能
# 开发人员： dpp
# 开发时间： 2021/8/18 6:45 下午
# 文件名称： model_pretrained.py
# 开发工具： PyCharm
import torchvision

# train_data = torchvision.datasets.ImageNet("ImageNet", split="train", download=True,
#                                           transform=torchvision.transforms.ToTensor())
from torch import nn

vgg16_false = torchvision.models.vgg16(pretrained=False)
vgg16_true = torchvision.models.vgg16(pretrained=True)

print(vgg16_true)

# 如何利用现有VGG16结构实现CIFAR10的10个类别的输出 在原有VGG16结构后面增加一层线性层
train_data = torchvision.datasets.CIFAR10("CIFAR10", train=True, transform=torchvision.transforms.ToTensor(),
download=True)

vgg16_true.add_module("add_linear", nn.Linear(1000, 10))   # in_features = 1000 out_features = 10
print(vgg16_true)

上述代码输出结果为如下，从输出结果能看出与原VGG16网络相比，最后增加了一层线性层Linear。

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (17): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (18): ReLU(inplace=True)
    (19): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (20): ReLU(inplace=True)
    (21): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (22): ReLU(inplace=True)
    (23): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (24): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (25): ReLU(inplace=True)
    (26): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (27): ReLU(inplace=True)
    (28): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (29): ReLU(inplace=True)
    (30): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(7, 7))
  (classifier): Sequential(
    (0): Linear(in_features=25088, out_features=4096, bias=True)
    (1): ReLU(inplace=True)
    (2): Dropout(p=0.5, inplace=False)
    (3): Linear(in_features=4096, out_features=4096, bias=True)
    (4): ReLU(inplace=True)
    (5): Dropout(p=0.5, inplace=False)
    (6): Linear(in_features=4096, out_features=1000, bias=True)
  )
  (add_linear): Linear(in_features=1000, out_features=10, bias=True) #增加的线性层 Linear
)

如果想将最后的线性层加在classifier中，则将代码修改如下：

# coding ：UTF-8
# 文件功能： 代码实现预训练模型的功能
# 开发人员： dpp
# 开发时间： 2021/8/18 6:45 下午
# 文件名称： model_pretrained.py
# 开发工具： PyCharm
import torchvision

# train_data = torchvision.datasets.ImageNet("ImageNet", split="train", download=True,
#                                           transform=torchvision.transforms.ToTensor())
from torch import nn

vgg16_false = torchvision.models.vgg16(pretrained=False)
vgg16_true = torchvision.models.vgg16(pretrained=True)

print(vgg16_true)

# 如何利用现有VGG16结构实现CIFAR10的10个类别的输出 在原有VGG16结构后面增加一层线性层
train_data = torchvision.datasets.CIFAR10("CIFAR10", train=True,
                                          transform=torchvision.transforms.ToTensor(),
                                          download=True)

vgg16_true.classifier.add_module("add_linear", nn.Linear(1000, 10))   # in_features = 1000 out_features = 10
print(vgg16_true)

将线性层Linear加在classifier中，输出结果为：

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (17): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (18): ReLU(inplace=True)
    (19): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (20): ReLU(inplace=True)
    (21): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (22): ReLU(inplace=True)
    (23): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (24): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (25): ReLU(inplace=True)
    (26): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (27): ReLU(inplace=True)
    (28): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (29): ReLU(inplace=True)
    (30): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(7, 7))
  (classifier): Sequential(
    (0): Linear(in_features=25088, out_features=4096, bias=True)
    (1): ReLU(inplace=True)
    (2): Dropout(p=0.5, inplace=False)
    (3): Linear(in_features=4096, out_features=4096, bias=True)
    (4): ReLU(inplace=True)
    (5): Dropout(p=0.5, inplace=False)
    (6): Linear(in_features=4096, out_features=1000, bias=True)
    (add_linear): Linear(in_features=1000, out_features=10, bias=True)
  )
)

3.学习小结

在本文重点讲解了现有神经网络模型的使用和修改方法，在已有模型的基础上搭建自己的模型，是十分方便的。在一下一篇博文，将介绍如何保存和读取网络模型。

我这一次

关注

8
点赞
踩
31

收藏

觉得还不错? 一键收藏
1
评论
PyTorch学习笔记（13）--现有网络模型的使用及修改

PyTorch学习笔记（13）–现有网络模型的使用及修改本博文是PyTorch的学习笔记，第12次内容记录，主要是在上一篇文章中提到的损失函数的基础上，研究神经网络优化器的使用方法。目录PyTorch学习笔记（13）--现有网络模型的使用及修改1.现有网络模型2.现有模型的使用2.1VGG16模型的结构2.2修改现有VGG16模型的结构3.学习小结1.现有网络模型在现有的torchvision中提供了许多常见的神经网络模型，这些模型主要包括：分类、语义分割、目标检测、视频分类等类型，
复制链接

扫一扫

专栏目录