【深度学习】PyTorch深度学习笔记03-梯度下降算法

参考学习:

04.反向传播_哔哩哔哩_bilibili

刘二大人《PyTorch深度学习实践》笔记 + 作业_pytorch刘二大人笔记-CSDN博客

---------------------------------------------------------------------------------------

由上节课的结果可以得出,假设一个参数 w 搜索100个结果,那么两个参数 w1,w2 的搜索空间就变成100的平方了,10个参数就变成100的十次方了。

因此穷举法,找到最优点,很不合理。

1. 分治法(局部最优解)

横竖分成4份,找16个点。然后最小值在绿色框里面,再在绿色框横竖分成四份。。。

但是如果 cost function 不是光滑的呢?这种方法就有可能一直在一个地方搜索,找不出最优值。

2. 梯度下降算法(Gradient Descent)

    计算cost曲线的梯度(导数)

        如果导数>0,相当于 x+Δx 后函数值变大了,即 f(x+Δx) - f(x) > 0(Δx>0),说明往梯度的正方向就是向右,函数是在上升的,所以要往导数的负方向走,往左走,才能到最低点。
        如果导数<0,说明随着 x 增加,函数值在减少,即 f(x+Δx) - f(x) < 0(Δx>0),说明x需要往右走。

所以如果想要cost值下降,就得取导数的负方向,负的导数的方向就是最小值的方向。

梯度下降算法其实也算是贪心算法,因此找到的是局部最优点。

那为什么深度学习还是普遍用梯度下降法呢?因为深度学习很少有局部最优点。

但是深度学习可能存在鞍点,梯度为0,使用梯度下降法可能无法走出鞍点。

具体计算(y = x * w)

代码(y = x * w)

import numpy as np
import matplotlib.pyplot as plt

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = 1.0
learning_rate = 0.01

def forward(x, w):
    return x * w

def cost_fuction(xs, ys, w):
    cost = 0
    for x, y in zip(xs, ys):
        y_pred = forward(x, w)
        cost += (y_pred - y) ** 2
    return cost / len(xs)

def gradient(xs, ys, w):
    grad = 0
    for x, y in zip(xs, ys):
        grad += 2 * x * (x * w - y)
    return grad / len(xs)

print('predict (before training)', 4, forward(4, w))

epoch_list = []
cost_val_list = []

for epoch in range(100):
    cost_val = cost_fuction(x_data, y_data, w)
    grad_val = gradient(x_data, y_data, w)
    w -= learning_rate * grad_val
    print('Epoch: ', epoch, 'w=', w, 'loss=', cost_val)
    epoch_list.append(epoch)
    cost_val_list.append(cost_val)
print('predict (after training)', 4, forward(4, w))

plt.plot(epoch_list, cost_val_list)
plt.xlabel('epoch')
plt.ylabel('cost val')
plt.show()

有些时候下降函数不平滑,采用指数加权均值方法,使得曲线更加的平滑。

3. 随机梯度下降(Stochastic Gradient Descent)

不拿整个样本的cost function算,而是取一个样本的loss。

因为遇到鞍点的时候,如果拿整个样本的cost function算,就出不来鞍点。而取一个样本的loss,就可能可以走出鞍点。

梯度下降 随机梯度下降 算梯度的区别

梯度下降 在计算 梯度 时,xi和xi+1的梯度之间没有依赖关系,可以并行计算。
随机梯度下降在计算 梯度 时,xi+1的w 是根据 xi的w 的随机运算得出,导致无法并行计算,时间复杂度高。

梯度下降 随机梯度下降 性能和时间对比

随机梯度下降可以找到最优点,可能不会在鞍点就停止,但是由于权重w无法并行计算导致时间复杂度高。
梯度下降的各个w可以并行计算。虽然时间复杂度低,但是可能找到的是鞍点。
因此,折中采用 mini-batch,批量的随机梯度下降。

代码(y = x * w)

import matplotlib.pyplot as plt

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = 1.0
learning_rate = 0.01

def forward(x, w):
    return x * w

def loss(x, y, w):
    y_pred = forward(x, w)
    loss = (y - y_pred) ** 2
    return loss

def gradient(x, y, w):
    return 2 * x * (x * w - y)

print('predict (before training)', 4, forward(4, w))

epoch_list = []
loss_list = []

for epoch in range(100):
    for x, y in zip(x_data, y_data):
        # 拿到一个样本就更新了
        grad = gradient(x, y, w)
        w = w - learning_rate * grad
        print('\tgrad: ', x, y, grad)
        l = loss(x, y, w)
    print('process: ', epoch, "w=", w, 'loss=', l)
    epoch_list.append(epoch)
    loss_list.append(l)
print('predict (after training)', 4, forward(4, w))

plt.plot(epoch_list, loss_list)
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()

  • 13
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值