框架学习杂记

最新推荐文章于 2022-10-27 17:41:49 发布

StreakyPorker

最新推荐文章于 2022-10-27 17:41:49 发布

阅读量341

点赞数

分类专栏： # 机器学习框架

本文链接：https://blog.csdn.net/weixin_44662670/article/details/119380110

版权

机器学习框架专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

训练参数及其含义
机器学习技巧及意义
- 梯度累加（Gradient Accumulation）
- 残差（residual）

训练参数及其含义

学习率（lr）：梯度下降反向传播时的学习速率，可以通过不同分布生成变化的学习率
weight_decay：实际上就是L2正则化向中的 $\lambda$

机器学习技巧及意义

梯度累加（Gradient Accumulation）

在GPU内存被限制的时候，使用相对小的batch进行训练，但不在每个batch训练完成后更新参数，而是在若干个batch完成后，一次性更新参数并清空梯度，这样可以得到类似大batch size的训练效果

for i, (inputs, labels)in enumerate(trainloader):
    outputs= net(inputs)                  # 正向传播
    loss= criterion(outputs, labels)      # 计算损失函数
    loss= loss/ accumulation_steps       # 损失标准化
    loss.backward()                        # 反向传播，计算梯度
    if (i+1)% accumulation_steps== 0:
        optimizer.step()                   # 更新参数
        optimizer.zero_grad()              # 梯度清零
        if (i+1)% evaluation_steps== 0:
            evaluate_model()

残差（residual）

残差在数理统计中是指实际观察值与估计值（拟合值）之间的差，如果回归模型正确的话，我们可以将残差看作误差的观测值。
残差网络可以解决网络深化厚的退化问题。
残差网络整体上的思路就是，如果设置了残差，就会有一个从输入直接到输出的shotcut function。
在这里插入图片描述
如图残差图的关键就是插入了一个从输入到输出的Indentity函数，一个神经网络层由F(x)变为F(x)+x，假如最优输入为x，只需要优化F(x)=H(x)-x=0即可。
如果输入维度和输出维度不一致，还需要一个线性层将输入维度转化为输出维度。
残差图起作用的原因是，由于有了shortcut，一个神经网络层的存在最差也不会损失精度（计算图仅仅通过identity函数），同时也有可能学习到使得精度提高的参数变化（神经网络参数）。

StreakyPorker

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
框架学习杂记

文章目录训练参数及其含义机器学习技巧及意义梯度累加（Gradient Accumulation）残差（residual）训练参数及其含义学习率（lr）：梯度下降反向传播时的学习速率，可以通过不同分布生成变化的学习率weight_decay：实际上就是L2正则化向中的λ\lambdaλ机器学习技巧及意义梯度累加（Gradient Accumulation）在GPU内存被限制的时候，使用相对小的batch进行训练，但不在每个batch训练完成后更新参数，而是在若干个batch完成后，一次性更新参
复制链接

扫一扫