【面经1:梯度下降】

定义

梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法批量梯度下降法
梯度:就是对f求偏导,注意梯度是一个向量,即有方向有大小。

机器学习中为什么需要梯度下降法?/梯度下降的作用?

  • 梯度下降是迭代法的一种,可以用于求解最小二乘问题
  • 求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值
  • 如果我们需要求解损失函数的最大值,可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。

请说说梯度下降法的问题和挑战/缺点?

1. 梯度的计算
在机器学习和统计参数估计问题中目标函数经常是求和函数的形式,其中每一个函数都对应一个样本,当样本量极大时,梯度的计算就变得非常耗时耗力。
2. 学习率的选择
学习率选择过小会导致算法收敛太慢,学习率选择过大容易导致算法不收敛。如何选择学习率需要具体问题具体分析。
3. 靠近极小值时收敛速度减慢。

梯度下降有可能得到的是局部最小值。如果损失函数是凸函数,则一定是最优解。

梯度下降法如何判断是否收敛?

迭代终止的条件是函数的梯度值为0(实际实现时是接近于0 即可),此时认为已经达到极值点。可以通过判定梯度的二范数是否充分接近于0 而实现。

随机梯度下降(SGD)、批量梯度下降(BGD)和小批量梯度下降Mini-batchGD的特点和区别 / 能介绍一下你经常用的optimizer吗?

1. 批量梯度下降 Batch Gradient Descent (BGD)

梯度更新规则:BGD 采用整个训练集的数据来计算 cost function 对参数的梯度

缺点:需要对整个数据都计算梯度,慢!遇到数据量大的就非常的不可取了。

for i in range(nb_epochs):
  params_grad = evaluate_gradient(loss_function, data, params)
  params = params - learning_rate * params_grad

它得到的虽然是一个全局最优解,但每迭代一步,都要用到训练集所有的数据,如果样本数据很大,这种方法迭代速度就很慢。
相比而言,随机梯度下降可避免这种问题。

2. 随机梯度下降 Stochastic Gradient Descent (SGD)

梯度更新规则:和 BGD 的一次用所有数据计算梯度相比,SGD 每次更新时对每个样本进行梯度更新,对于很大的数据集来说,可能会有相似的样本,这样 BGD 在计算梯度时会出现冗余,而 SGD 一次只进行一次更新,就没有冗余,而且比较快,并且可以新增样本。对每个样本算出的params_grad作为更新依据。

for i in range(nb_epochs):
  np.random.shuffle(data)
  for example in data:
    params_grad = evaluate_gradient(loss_function, example, params)
    params = params - learning_rate * params_grad

缺点:1)噪声多,cost function有严重的震荡;2)每个迭代的方向并不是最优的方向,虽然快,但准确度下降,不是全局最优解,4)可以收敛,但很可能跳过最小值;5)如果学习率调低些,收敛效果和BSG一样;5)随机性很大,只能从期望上看这个等于正确的导数。

小结:
随机梯度下降法、批量梯度下降法相对来说都比较极端,简单对比如下:
在这里插入图片描述

3. 小批量梯度下降 Mini-Batch Gradient Descent (MBGD)

梯度更新规则:MBGD 每一次利用一小批样本,即 n 个样本进行计算,这样它可以降低参数更新时的方差,收敛更稳定,另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。和 SGD 的区别是每一次循环不是作用于每个样本,而是具有 n 个样本的批次。

超参数设定值: n 一般取值在 50~256

for i in range(nb_epochs):
  np.random.shuffle(data)
  for batch in get_batches(data, batch_size=50):
    params_grad = evaluate_gradient(loss_function, batch, params)
    params = params - learning_rate * params_grad

缺点:1)learningrate太小收敛慢,太大就一直震荡甚至偏离(有一种措施是先设定大一点的学习率,当两次迭代之间的变化低于某个阈值后,就减小 learning rate,不过这个阈值的设定需要提前写好,这样的话就不能够适应数据集的特点。)
在这里插入图片描述

凸函数求极值的方法有哪些,并简单介绍一下?

  • 常见的方法如牛顿法和梯度下降法
  1. 梯度下降法
    在这里插入图片描述
    可以看出,梯度下降法更新参数的方式为目标函数在当前参数取值下的梯度值,前面再加上一个步长控制参数alpha。
    根据这个过程我们发现,每一步走的距离在极值点附近非常重要,如果走的步子过大,容易在极值点附近震荡而无法收敛。解决办法:将alpha设定为随着迭代次数而不断减小的变量,但是也不能完全减为零。
  2. 牛顿法
    在这里插入图片描述

    在这里插入图片描述
    其中H叫做海森矩阵,其实就是目标函数对参数θ的二阶导数。

通过比较牛顿法和梯度下降法的迭代公式,可以发现两者及其相似。海森矩阵的逆就好比梯度下降法的学习率参数alpha。牛顿法收敛速度相比梯度下降法很快,而且由于海森矩阵的的逆在迭代中不断减小,起到逐渐缩小步长的效果。
牛顿法的缺点就是计算海森矩阵的逆比较困难,消耗时间和计算资源。

为什么不用牛顿法来代替梯度下降算法?

a. 牛顿法使用的是目标函数的二阶导数,在高维情况下这个矩阵非常大,计算和存储都是问题。

b. 在小批量的情况下,牛顿法对于二阶导数的估计噪声太大。

c.目标函数非凸的时候,牛顿法容易受到鞍点或者最大值点的吸引。

  • Hessian 矩阵不定的点称为鞍点,它不是函数的极值点。
    鞍点 (saddle point)的数学含义是: 目标函数在此点上的梯度(一阶导数)值为 0, 但从该点出发的一个方向是函数的极大值点,而在另一个方向是函数的极小值点
  • 梯度下降法和牛顿法都不能保证找到函数的极小值点。因为梯度下降法可能找到的是局部最小点,牛顿法可能收敛到鞍点,不是极值点。

梯度下降法找到的一定是下降最快的方向么?

梯度下降法并不是下降最快的方向,它只是目标函数在当前的点的切平面(当然高维问题不能叫平面)上下降最快的方向。

牛顿方向(考虑海森矩阵)才一般被认为是下降最快的方向,可以达到Superlinear的收敛速度。梯度下降类的算法的收敛速度一般是Linear甚至Sublinear的(在某些带复杂约束的问题)。

敲出SGD代码!


def sgd(w, dw, config=None):
    """
    单纯的sgd实现
    """
    if config is None: config = {}
    config.setdefault('learning_rate', 1e-2)
 
    w -= config['learning_rate'] * dw
    return w, config
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值