动手学习深度学习（总结梳理）——12. 深度卷积神经网络（LeNet）

TheFanXY

已于 2022-10-18 17:21:46 修改

阅读量374

点赞数

文章标签：深度学习学习 cnn

于 2022-10-18 01:25:39 首次发布

本文链接：https://blog.csdn.net/weixin_44981126/article/details/127377219

版权

1. LeNet

2. 模型训练

3. QA环节

3.1 池化和卷积是不是更适合图像这类型的数据，而对于时序性的数据（做分类）是不是不适合用这类数据？

3.2 LeNet第二个卷积层通道数增加到了16，这意味着信息被放大了嘛？或者说信息在通道是怎么流通的？

3.3 对于选择深度学习模型是用mlp还是cnn，是一种试的心态还是先从理论推导，行得通再选一个模型？

3.4 跑的动的情况下，是不是把中间层输出通道调大效果会好？

1. LeNet

import torch
from torch import nn
from d2l import torch as d2l

net = nn.Sequential(
''' 这里padding是为了保持输出的图片大小一直，取 k - 1 = 4'''
    nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.Sigmoid(),
    nn.AvgPool2d(kernel_size=2, stride=2),
    nn.Conv2d(6, 16, kernel_size=5), nn.Sigmoid(),
    nn.AvgPool2d(kernel_size=2, stride=2),
    nn.Flatten(),
    nn.Linear(16 * 5 * 5, 120), nn.Sigmoid(),
    nn.Linear(120, 84), nn.Sigmoid(),
    nn.Linear(84, 10))

X = torch.rand(size=(1, 1, 28, 28), dtype=torch.float32)
for layer in net:
    X = layer(X)
    print(layer.__class__.__name__,'output shape: \t',X.shape)

2. 模型训练

现在我们已经实现了LeNet，让我们看看LeNet在Fashion-MNIST数据集上的表现。

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size=batch_size)

虽然卷积神经网络的参数较少，但与深度的多层感知机相比，它们的计算成本仍然很高，因为每个参数都参与更多的乘法。如果你有机会使用GPU，可以用它加快训练。为了进行评估，我们需要对第二章softmax学习中描述的evaluate_accuracy函数进行轻微的修改。由于完整的数据集位于内存中，因此在模型使用GPU计算数据集之前，我们需要将其复制到显存中。

def evaluate_accuracy_gpu(net, data_iter, device=None): 
    """使用GPU计算模型在数据集上的精度"""
    if isinstance(net, nn.Module):
        net.eval()  ''' 设置为评估模式 '''
        if not device:
        ''' 如果没有device就看看你网络层的device作为当前device    '''
            device = next(iter(net.parameters())).device
    ''' 正确预测的数量，总预测的数量 '''
    metric = d2l.Accumulator(2)
    with torch.no_grad():
        for X, y in data_iter:
            if isinstance(X, list):
                ''' BERT微调所需的（之后将介绍） '''
                X = [x.to(device) for x in X]
            else:
                X = X.to(device)
            y = y.to(device)
            metric.add(d2l.accuracy(net(X), y), y.numel())
    return metric[0] / metric[1]

由于我们将实现多层神经网络，因此我们将主要使用高级API。以下训练函数假定从高级API创建的模型作为输入，并进行相应的优化。我们使用在第七章数值稳定性和模型初始化中介绍的Xavier随机初始化模型参数。与全连接层一样，我们使用交叉熵损失函数和小批量随机梯度下降。

def train_ch6(net, train_iter, test_iter, num_epochs, lr, device):
    """用GPU训练模型(在第六章定义)"""
    def init_weights(m):
        if type(m) == nn.Linear or type(m) == nn.Conv2d:
            nn.init.xavier_uniform_(m.weight)
    net.apply(init_weights)
    print('training on', device)
    net.to(device)
    optimizer = torch.optim.SGD(net.parameters(), lr=lr)
    loss = nn.CrossEntropyLoss()
    animator = d2l.Animator(xlabel='epoch', xlim=[1, num_epochs],
                            legend=['train loss', 'train acc', 'test acc'])
    timer, num_batches = d2l.Timer(), len(train_iter)
    for epoch in range(num_epochs):
        # 训练损失之和，训练准确率之和，样本数
        metric = d2l.Accumulator(3)
        net.train()
        for i, (X, y) in enumerate(train_iter):
            timer.start()
            optimizer.zero_grad()
            X, y = X.to(device), y.to(device)
            y_hat = net(X)
            l = loss(y_hat, y)
            l.backward()
            optimizer.step()
            with torch.no_grad():
                metric.add(l * X.shape[0], d2l.accuracy(y_hat, y), X.shape[0])
            timer.stop()
            train_l = metric[0] / metric[2]
            train_acc = metric[1] / metric[2]
            if (i + 1) % (num_batches // 5) == 0 or i == num_batches - 1:
                animator.add(epoch + (i + 1) / num_batches,
                             (train_l, train_acc, None))
        test_acc = evaluate_accuracy_gpu(net, test_iter)
        animator.add(epoch + 1, (None, None, test_acc))
    print(f'loss {train_l:.3f}, train acc {train_acc:.3f}, '
          f'test acc {test_acc:.3f}')
    print(f'{metric[2] * num_epochs / timer.sum():.1f} examples/sec '
          f'on {str(device)}')

现在，我们训练和评估LeNet-5模型。

lr, num_epochs = 0.9, 10
train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

3. QA环节

3.1 池化和卷积是不是更适合图像这类型的数据，而对于时序性的数据（做分类）是不是不适合用这类数据？

时序是可以用卷积的，至于这个池化，很难说用不用，可以用的化还是用一下。

3.2 LeNet第二个卷积层通道数增加到了16，这意味着信息被放大了嘛？或者说信息在通道是怎么流通的？

其实我们从信息角度去看，高宽减小了，我们用一个更小的像素代表了以前更多像素的东西，但是通道变多了，意味着我们能匹配更多的模式，去拟合它更多的模型，然后压缩到最后，变成一个点就代表着一个类，所以从这个角度信息是在被压缩。

3.3 对于选择深度学习模型是用mlp还是cnn，是一种试的心态还是先从理论推导，行得通再选一个模型？

我们没有理论推导，就我的经验来看，如果数据不大的时候，比如你的数据就几百维，几千维的时候MLP还是可以的，当很大的时候，MLP首先基本就overfitting了。如果你数据都可以用，那可以先试一下MLP，毕竟它快啊。但是大了的你可能根本跑不动。

3.4 跑的动的情况下，是不是把中间层输出通道调大效果会好？

和MLP一样不能调太大，模型复杂会过拟合，和数据复杂度相关。

TheFanXY

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
动手学习深度学习（总结梳理）——12. 深度卷积神经网络（LeNet）

动手学习深度学习（总结梳理）——12. 卷积神经网络（LeNet）
复制链接

扫一扫

动手学习深度学习（总结梳理）——12. 深度卷积神经网络（LeNet）

1. LeNet

2. 模型训练

3. QA环节

3.1 池化和卷积是不是更适合图像这类型的数据，而对于时序性的数据（做分类）是不是不适合用这类数据？

3.2 LeNet第二个卷积层通道数增加到了16，这意味着信息被放大了嘛？或者说信息在通道是怎么流通的？

3.3 对于选择深度学习模型是用mlp还是cnn，是一种试的心态还是先从理论推导，行得通再选一个模型？

3.4 跑的动的情况下，是不是把中间层输出通道调大效果会好？

“相关推荐”对你有帮助么？