深度学习之与学习相关的技巧（篇一更新参数的方法）

挚爱我甜~

已于 2024-04-23 17:50:58 修改

阅读量969

点赞数 37

文章标签：深度学习

于 2024-04-23 13:57:38 首次发布

本文链接：https://blog.csdn.net/xi125810/article/details/138121096

版权

本文探讨了深度学习中三种常见的参数更新方法：SGD（随机梯度下降）、AdaGrad和Adam（自适应矩估计算法）。SGD简单但可能效率低，AdaGrad自适应调整每个参数的学习率，而Adam结合了动量和RMSProp，表现出更好的鲁棒性。选择哪种方法取决于问题和任务需求。

摘要由CSDN通过智能技术生成

#深度学习

参数的更新

1. SGD

神经网络的学习的目的是找到使损失函数的值尽可能小的参数。这是寻找最优参数的问题，解决这个问题的过程称为最优化（optimization）。但是找到神经网络的最优化问题非常难，我们为了找到最优参数，沿梯度方向更新参数，并重复这个步骤多次，从而靠近最优参数，这个过程称为随机梯度下降法（stochastic gradient descent）简称SGD

SGD公式如下：

$W\leftarrow W- \eta \frac{\partial L}{\partial W}$ （1.1）

更新的权重参数记为W，把损失函数关于W的梯度记为 $\frac{\partial L}{\partial W}$ 。 $\eta$ 表示学习率，实际上会取0.01或者0.001这些事先决定好的值。<——表示右边的值更新左边的值。如式1.1所示，SGD朝着梯度方向只前进一定距离的简单方法。

python代码如下：

class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr

    def updata(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr * grads[key]

SGD的缺点：

在解决某些问题时可能没有效率。

2. AdaGrad

论文地址：John Duchi, Elad Hazan, and Yoram Singer(2011):Adaptive Subgradient

Methods for Online Learning and Stochastic Optimization Journal of Machine Learning Research

12, Jul(2011), 2121-2159.

在神经网络学习中，学习率的值很重要。学习率过小，会导致学习花费时间过多；反过来，学习率越大，则会导致学习发散而不能正确进行。

在有关于学习率的有效技巧中，有一种被称为学习率衰减（learning rate decay）的方法，即随着学习的进行，使学习率逐渐减小。逐渐减小学习率的想法，相当于将“全体”参数的学习率的值一起降低。而AdaGrad进一步发展了这个想法，针对一个个的参数，赋予其定制的值。

公式为：

$h\leftarrow h + \frac{\partial L}{\partial W}\odot \frac{\partial L}{\partial W}$ (1.2)

$W\leftarrow W-\eta \frac{1}{\sqrt{h}}\frac{\partial L}{\partial W}$ (1.3)

和1.1公式中一样，W表示权重， $\frac{\partial L}{\partial W}$ 表示损失函数关于W的梯度， $\eta$ 表示学习率。这里新出现的h表示以前所有梯度值的平方和。

AdaGrad会记录过去所有的梯度平方和。因此，学习越深入，更新的幅度就越小。

实现代码：

import numpy as np

class AdaGrad:
    def __init__(self, learning_rate=0.01):
        self.learning_rate = learning_rate
        self.eps = 1e-6
        self.cache = None

    def initialize(self, dim):
        self.cache = np.zeros(dim)

    def update(self, params, grads):
        for key in params.keys():
            # Update cache
            self.cache += grads[key] * grads[key]
            # Update parameters
            params[key] -= self.learning_rate * grads[key] / (np.sqrt(self.cache) + self.eps)

# Example usage:
# Initialize parameters and gradients
params = {'W1': np.random.randn(3, 4),
          'b1': np.random.randn(4),
          'W2': np.random.randn(4, 1),
          'b2': np.random.randn(1)}

grads = {'W1': np.random.randn(3, 4),
         'b1': np.random.randn(4),
         'W2': np.random.randn(4, 1),
         'b2': np.random.randn(1)}

# Initialize AdaGrad
ada_grad = AdaGrad(learning_rate=0.01)

# Initialize cache
ada_grad.initialize(dim=4)  # Assuming the size of the parameters is 4 for simplicity

# Perform parameter update
ada_grad.update(params, grads)

# After the update, params will be updated based on the AdaGrad algorithm.

3.Adam

Adam（Adaptive Moment Estimation）是一种用于深度学习中的优化算法，它结合了两种扩展的梯度下降算法——Momentum和RMSProp。Momentum算法通过考虑之前梯度的指数衰减平均值来加速学习，而RMSProp算法则通过梯度平方的指数衰减平均值来调整每个参数的学习率。Adam优化器将这两个概念结合起来，为每个参数计算一个自适应的学习率。

Adam算法的主要优点是它相对于其他SGD变种更加鲁棒，并且需要很少的调整。它在很多不同的深度学习问题中表现良好，并且已经成为许多深度学习框架中的默认优化器。

Adam算法的原始论文是由Diederik P. Kingma和Jimmy Ba在2014年发表的，标题为《Adam: A Method for Stochastic Optimization》。

在论文中，作者详细介绍了Adam算法的原理和实现，并通过实验验证了其在不同机器学习任务中的有效性。Adam算法通过计算梯度的一阶矩估计（即均值）和二阶矩估计（即未中心化的方差）来调整每个参数的学习率。具体来说，Adam算法为每个参数维护两个向量，分别是：