机器学习-吴恩达 梯度下降(笔记)

什么是梯度下降?

梯度下降是寻找目标函数最小化的方法。

比如在上一个单变量线性回归模型文章中我们的目标是得到最拟合的单变量线性回归Function,也就是得到代价函数的最小值:min J(w,b) 。
那么如何得到呢?梯度下降法就可以通过不断迭代调整参数来寻找最合适的值。

梯度下降表达式

我们还是用单变量线性回归模型中的J(w,b)来举例:
在这里插入图片描述
我们持续不断地更新w和b,直到他们收敛,也就是计算后他们的值已经不会出现什么变动,那么我们就得到了局部(以下文章会解释为什么是局部)/ 全局最小值(只是收敛到极小值,而不是真正意义上的最小值。以下说的最小值,其实都是极小值)或是鞍点。

注意我们需要同步更新w和b,也就是w更新后,b更新时用的还是没有更新的w。
在这里插入图片描述

表达式解释

这里的等号是一个赋值符号,而不是数学意义上的相等符号。
这里的Alpha学习率(learning rate),用来控制步长,也就是我们每一步的跨度,一定大于0,通常在0到1之间,在之后的文章中会详细讲解。
这里的最后一项是对于代价函数J(w,b)的偏导,用来控制方向

梯度下降的直观理解

为了更直观的观察梯度下降是如何让目标函数的最小化,我们假设只有一个参数的代价函数 J(w),在上一章中我们知道J(w)是一个二次函数(quadratic function),也就是一个抛物线。
J(w)图像
我们假设一个在抛物线上的初始点
在这里插入图片描述
现在开始进行梯度下降:在这里插入图片描述
这里的最后一项(对J(w)的求导)在图中就是这个点的斜率:
在这里插入图片描述
那么也就是w = w - α \alpha α * 一个正数,由于alpha一定是正数,所以w减小了所以在图中的表现就是点向左移动,也就是向最小值靠近:
在这里插入图片描述
再来看另一个例子,当我们取的点在抛物线左边:在这里插入图片描述
那么这个时候J(w)的求导就是负数,也就是一个负的斜率:
在这里插入图片描述
那么现在w = w - α \alpha α * 一个负数,w增大了,所以在图中的表现就是点向右移动,也在向最小值靠近:
在这里插入图片描述

学习率(learning rate)

学习率的过大或过小都会造成一些影响:
学习率过小: 梯度下降的速度会非常慢,因为每次下降的步长都太小,虽然最终也能得到正确结果,但会花费非常长的时间
学习率过大: 梯度下降的过多,会错过最小值,并且无法收敛
在这里插入图片描述

固定的学习率只能找到局部最小值

由于当 J(w) 的取值在局部最小值的时候,这个点的斜率为0,那么在下一次更新的时候,由于最后一项求导值为0,0乘上alpha还是0,所以w的取值已经不会再改变
在这里插入图片描述
到达哪个局部最小值取决于选择的起始点
在这里插入图片描述

但在回归中使用平方代价函数时,代价函数没有也永远不会有多个局部最优解,也就是只有全局最优解。这种函数我们称为凸函数。


在这里插入图片描述


J(w) 靠近最小值的速度会逐渐变慢

即使在 alpha(学习率)不变的情况下,随着 J(w) 的值向最小值靠近的时候,点的斜率会越来越小,所以w变化的速度也会逐渐变慢。在这里插入图片描述


线性回归中的梯度下降

回顾上一章的内容:在这里插入图片描述
在对J(w,b)进行求导后得到:
在这里插入图片描述

求导过程:

对w求导:
在这里插入图片描述
对b求导:
在这里插入图片描述

重复对 w 和 b 的求导,直到它们收敛。我们就找到了 f(x) 的最小值。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是一个简单的线性回归示例,使用梯度下降算法来优化模型参数: ```python import numpy as np # 输入数据 X = np.array([[1, 1], [1, 2], [1, 3], [1, 4]]) y = np.array([2, 3, 4, 5]) # 初始化模型参数 theta = np.zeros(X.shape[1]) # 定义梯度下降函数 def gradient_descent(X, y, theta, learning_rate, num_iterations): m = len(y) # 样本数量 history_cost = [] # 记录每次迭代的损失函数值 for i in range(num_iterations): # 计算预测值 y_pred = np.dot(X, theta) # 计算误差 error = y_pred - y # 计算梯度 gradient = (1/m) * np.dot(X.T, error) # 更新参数 theta = theta - learning_rate * gradient # 计算损失函数值 cost = np.sum((y_pred - y) ** 2) / (2 * m) history_cost.append(cost) return theta, history_cost # 调用梯度下降函数进行训练 learning_rate = 0.01 num_iterations = 1000 theta_optimized, history_cost = gradient_descent(X, y, theta, learning_rate, num_iterations) print("优化后的参数 theta:", theta_optimized) ``` 这段代码实现了一个简单的线性回归模型,通过梯度下降算法来优化模型参数。输入数据 `X` 是一个二维数组,每一行代表一个样本的特征向量,第一列为常数项1用于计算截距。标签 `y` 是一个一维数组,代表对应样本的真实值。函数 `gradient_descent` 实现了梯度下降算法的迭代过程,其中 `learning_rate` 是学习率,`num_iterations` 是迭代次数。最后输出优化后的参数 `theta_optimized`。 请注意,这只是一个简单的示例代码,并不涵盖所有的梯度下降变体和优化技巧。实际应用中可能需要对代码进行适当修改和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值