pytorch深度学习（2）-梯度下降算法解读

Wardeld

已于 2022-06-23 10:09:00 修改

阅读量438

点赞数 1

文章标签：深度学习 pytorch python

于 2021-10-30 18:34:55 首次发布

本文链接：https://blog.csdn.net/wuzxcvbnm/article/details/121051628

版权

梯度下降

一、梯度下降算法

一、梯度下降算法

引言

我们知道在学习深度学习中，为了使我们具有最小的损失的网络，使其输出值与目标值尽可能地接近，使损失函数最小化。从而我们引入了梯度下降算法，它可以使我们得到一个最小值的目标损失函数。对于我们看到的任何一个模型，他都有自己损失函数。在学习简单线性回归时，既y=w*x，我们使用最小二乘法来求损失函数的最小值。但是在绝大多数的情况下，损失函数是很复杂的，例如如果出现y=（w1+w2）*x复杂情况时，根本无法得到参数估计值的表达式。因此需要一种对大多数函数都适用的方法。这就引出了“梯度算法”。

梯度下降算法，其作用是用来对原始模型的损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小。

深刻理解梯度下降算法

那么我们怎样来理解它呢，在我看来梯度下降可以将它分成两部分，即梯度和下降。
所谓梯度，我的理解是它该点的导数。我们可以从数学角度去看待它。以下为导数的定义式。下降，顾名思义，去找下降的方向。
在这里插入图片描述
我们以下列的图为例，在该点处，往右时，我们f(x+△x) - f(x)>0,默认△x>0。此时我们的导数为正，函数为增函数，向上升的地方走去。往左时，f(x+△x) - f(x)<0,同理可得，函数往下降的方向走去。是我们目标的方向。
在这里插入图片描述
而在我们更新权重的方法，就是以下方法。其中w为权重，a为学习率，学习率相当于步长。学习率是一个需要调整的超参数。

太小会使得训练速度过慢，很长时间都不能结束。
太大会使得训练无法收敛。可能会跳过我们需要的最优解，因此需要很小心的调节学习速率

梯度下降算法示例

选择训练样本x_data和对应目标y_data组成的数据批量。
定义模型以及进行前向传播得到预测值y_pried。
计算网络在这批数据上的损失，用于衡量y_pried和y的距离。
更新网络所有权重。

import numpy as np
import matplotlib.pyplot as plt

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = 1.0

def forward(x):
    return w * x


def cost(xs, ys):
    cost = 0
    for x, y in zip(xs, ys):
        y_pried = forward(x)
        cost += (y_pried - y) ** 2
    return cost / len(xs)

def gradient(xs, ys):
    grad = 0
    for x, y in zip(xs, ys):
        grad += 2 * x * (x * w - y)
    return grad / len(xs)

cost_list = []
epoh_list = []
print('Predict(before traning)', 4, forward(4))

for epoh in range(100):
    epoh_list.append(epoh)

    cost_val = cost(x_data, y_data)
    grad_val = gradient(x_data, y_data)
    cost_list.append(cost_val)
    w -= 0.01 * grad_val
    print('Epoh:', epoh, 'w=', w, 'loss=', cost_val)
print('Predict(after traning', 4, forward(4))

plt.plot(epoh_list, cost_list)
plt.ylabel('cost')
plt.xlabel('epoh')
plt.show()

结果：
在这里插入图片描述

随机梯度下降算法

一般来说，梯度下降算法只能解决局部最优问题，无法解决全局最优，我们日常很少用到。比如下图模型。由此我们引入了随机梯度下降算法（SGD）。
随机梯度下降他本质就是在全局随机寻找一组组样本去训练，随机的决定下次权重w的变化趋势。
在这里插入图片描述

Wardeld

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
pytorch深度学习（2）-梯度下降算法解读

梯度下降与方向传播梯度下降算法反向传播算法功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入梯度下降算法学习速率是最需要调整的一个超参数，太小会使得训练速度过慢；太大会使得训练无法收敛，因此需要很小心的调节学习速率，学习率相当于
复制链接

扫一扫