动手学习深度学习-权重衰退&dropout

最新推荐文章于 2024-09-05 15:28:05 发布

weixin_52568655

最新推荐文章于 2024-09-05 15:28:05 发布

阅读量103

点赞数

文章标签：深度学习学习人工智能

本文链接：https://blog.csdn.net/weixin_52568655/article/details/129918929

版权

一. 权重衰退（weight decay）

权重衰减（weight decay）是最广泛使用的正则化的技术之一，它通常也被称为 𝐿2正则化。
在这里插入图片描述

在这里插入图片描述

正则化是处理过拟合的常用方法：在训练集的损失函数中加入惩罚项，以降低学习到的模型的复杂度。
保持模型简单的一个特别的选择是使用 𝐿2惩罚的权重衰减。这会导致学习算法更新步骤中的权重衰减。
权重衰减功能在深度学习框架的优化器中提供。
在同一训练代码实现中，不同的参数集可以有不同的更新行为。

实现：

def train_concise(wd):
    net = nn.Sequential(nn.Linear(num_inputs, 1))
    for param in net.parameters():
        param.data.normal_()
    loss = nn.MSELoss(reduction='none')
    num_epochs, lr = 100, 0.003
    # 偏置参数没有衰减
    trainer = torch.optim.SGD([
        {"params":net[0].weight,'weight_decay': wd},
        {"params":net[0].bias}], lr=lr)
    animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',
                            xlim=[5, num_epochs], legend=['train', 'test'])
    for epoch in range(num_epochs):
        for X, y in train_iter:
            trainer.zero_grad()
            l = loss(net(X), y)
            l.mean().backward()
            trainer.step()
        if (epoch + 1) % 5 == 0:
            animator.add(epoch + 1,
                         (d2l.evaluate_loss(net, train_iter, loss),
                          d2l.evaluate_loss(net, test_iter, loss)))
    print('w的L2范数：', net[0].weight.norm().item())

二. DropOut

需要说明的是，暂退法的原始论文提到了一个关于有性繁殖的类比：神经网络过拟合与每一层都依赖于前一层激活值相关，称这种情况为“共适应性”。作者认为，暂退法会破坏共适应性，就像有性生殖会破坏共适应的基因一样。

那么关键的挑战就是如何注入这种噪声。一种想法是以一种无偏向（unbiased）的方式注入噪声。这样在固定住其他层时，每一层的期望值等于没有噪音时的值。

在毕晓普的工作中，他将高斯噪声添加到线性模型的输入中。在每次训练迭代中，他将从均值为零的分布 𝜖∼(0,𝜎2)
采样噪声添加到输入 𝐱
，从而产生扰动点 𝐱′=𝐱+𝜖
，预期是 𝐸[𝐱′]=𝐱
。

在标准暂退法正则化中，通过按保留（未丢弃）的节点的分数进行规范化来消除每一层的偏差。换言之，每个中间活性值 ℎ
以暂退概率 𝑝
由随机变量 ℎ′
替换，如下所示：
在这里插入图片描述

根据此模型的设计，其期望值保持不变，即 𝐸[ℎ′]=ℎ。
在这里插入图片描述
仅训练集使用，测试集不使用

作用于全连接层的输出上

net = nn.Sequential(nn.Flatten(),
        nn.Linear(784, 256),
        nn.ReLU(),
        # 在第一个全连接层之后添加一个dropout层
        nn.Dropout(dropout1),
        nn.Linear(256, 256),
        nn.ReLU(),
        # 在第二个全连接层之后添加一个dropout层
        nn.Dropout(dropout2),
        nn.Linear(256, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);