04.6. 暂退法

最新推荐文章于 2024-03-04 14:03:33 发布

nsq_ai

最新推荐文章于 2024-03-04 14:03:33 发布

阅读量589

点赞数 1

分类专栏： Python基础学习 python书籍笔记 # dive_into_deep_learning 文章标签：深度学习机器学习 python

本文链接：https://blog.csdn.net/weixin_45063703/article/details/126807377

版权

Python基础学习同时被 3 个专栏收录

123 篇文章 17 订阅

订阅专栏

python书籍笔记

78 篇文章 4 订阅

订阅专栏

dive_into_deep_learning

69 篇文章 0 订阅

订阅专栏

文章目录

- 4.6. 暂退法（Dropout）

4.6. 暂退法（Dropout）

暂退法（dropout）
在训练过程中丢弃（drop out）一些神经元。
在整个训练过程的每一次迭代中，标准暂退法包括在计算下一层之前将当前层中的一些节点置零。

4.6.3 实践中的暂退法

将暂退法应用到隐藏层，以P 的概率将隐藏单元置为零时，结果可以看作是一个只包含原始神经元子集的网络。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NAwaRCLd-1662888794393)(https://zh.d2l.ai/_images/dropout2.svg)]

删除了h2和h5，因此输出的计算不再依赖于h2或者h5，并且它们各自的梯度在执行反向传播时也会消失。
这样，输出层的计算不能过度依赖于的任何一个元素。

4.6.4. 从零开始实现

在下面的代码中，我们实现 dropout_layer 函数，该函数以dropout的概率丢弃张量输入X中的元素，如上所述重新缩放剩余部分：将剩余部分除以1.0-dropout。

from mxnet import autograd, gluon, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

def dropout_layer(X, dropout):
    assert 0 <= dropout <= 1
    # 在本情况中，所有元素都被丢弃
    if dropout == 1:
        return np.zeros_like(X)
    # 在本情况中，所有元素都被保留
    if dropout == 0:
        return X
    mask = np.random.uniform(0, 1, X.shape) > dropout
    return mask.astype(np.float32) * X / (1.0 - dropout)
    
# 将输入X通过暂退法操作，暂退概率分别为0、0.5和1。
X = np.arange(16).reshape(2, 8)
print(dropout_layer(X, 0))
print(dropout_layer(X, 0.5))
print(dropout_layer(X, 1))

# 定义模型参数
num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256

W1 = np.random.normal(scale=0.01, size=(num_inputs, num_hiddens1))
b1 = np.zeros(num_hiddens1)
W2 = np.random.normal(scale=0.01, size=(num_hiddens1, num_hiddens2))
b2 = np.zeros(num_hiddens2)
W3 = np.random.normal(scale=0.01, size=(num_hiddens2, num_outputs))
b3 = np.zeros(num_outputs)

params = [W1, b1, W2, b2, W3, b3]
for param in params:
    param.attach_grad()
    
# 定义模型
dropout1, dropout2 = 0.2, 0.5

def net(X):
    X = X.reshape(-1, num_inputs)
    H1 = npx.relu(np.dot(X, W1) + b1)
    # 只有在训练模型时才使用dropout
    if autograd.is_training():
        # 在第一个全连接层之后添加一个dropout层
        H1 = dropout_layer(H1, dropout1)
    H2 = npx.relu(np.dot(H1, W2) + b2)
    if autograd.is_training():
        # 在第二个全连接层之后添加一个dropout层
        H2 = dropout_layer(H2, dropout2)
    return np.dot(H2, W3) + b3
    
# 训练和测试
num_epochs, lr, batch_size = 10, 0.5, 256
loss = gluon.loss.SoftmaxCrossEntropyLoss()
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs,
              lambda batch_size: d2l.sgd(params, lr, batch_size))

4.6.5. 简洁实现

对于深度学习框架的高级API，我们只需在每个全连接层之后添加一个Dropout层，将暂退概率作为唯一的参数传递给它的构造函数。
在训练时，Dropout层将根据指定的暂退概率随机丢弃上一层的输出（相当于下一层的输入）。
在测试时，Dropout层仅传递数据。

net = nn.Sequential()
net.add(nn.Dense(256, activation="relu"),
        # 在第一个全连接层之后添加一个dropout层
        nn.Dropout(dropout1),
        nn.Dense(256, activation="relu"),
        # 在第二个全连接层之后添加一个dropout层
        nn.Dropout(dropout2),
        nn.Dense(10))
net.initialize(init.Normal(sigma=0.01))

# 训练和测试
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr})
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

4.6.6. 小结

暂退法在前向传播过程中，计算每一内部层的同时丢弃一些神经元。
暂退法可以避免过拟合，它通常与控制权重向量的维数和大小结合使用的。
暂退法将活性值替换为具有期望值的随机变量。
暂退法仅在训练期间使用。

nsq_ai

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
04.6. 暂退法

在下面的代码中，我们实现 dropout_layer 函数，该函数以dropout的概率丢弃张量输入X中的元素，如上所述重新缩放剩余部分：将剩余部分除以1.0-dropout。对于深度学习框架的高级API，我们只需在每个全连接层之后添加一个Dropout层，将暂退概率作为唯一的参数传递给它的构造函数。在训练时，Dropout层将根据指定的暂退概率随机丢弃上一层的输出（相当于下一层的输入）。在整个训练过程的每一次迭代中，标准暂退法包括在计算下一层之前将当前层中的一些节点置零。暂退法仅在训练期间使用。
复制链接

扫一扫