梯度的理解

最新推荐文章于 2023-12-07 22:14:39 发布

爱吃冰淇凌的羊驼

最新推荐文章于 2023-12-07 22:14:39 发布

阅读量3.3k

点赞数 2

分类专栏：深度学习

原文链接：https://blog.csdn.net/wangyanbeilin/article/details/81632596

版权

深度学习专栏收录该内容

27 篇文章 5 订阅

订阅专栏

梯度：高数的知识，是个向量，每点只有一个梯度。

梯度的方向：与这个函数在该点增长最快的方向一致。梯度的大小：|梯度|=max(方向导数)。

梯度下降法：求损失函数最小值。求解步骤是：先对f(x)求梯度△，再向着和梯度相反的方向移动x，不断移动，直到两次迭代算出来的f(x)差值基本上不变了，就算迭代收敛了，完成。因此每次迭代就把x更新成x-λ△，就是x-步长×梯度。

梯度消失：靠近输出层的层，梯度大，参数更新快，容易收敛。离输出层远的层，梯度小，参数更新慢，就跟最初一样基本是随机分布的，不容易收敛。这个就算梯度消失。一般出现在sigmoid上，因为sigmoid函数导数是f'(x) = f(x)(1-f(x)) ∈ (0,1) ，DNN的反向传播是对偏导数逐层相乘，因此(0,1)一直相乘，接近为0时，则梯度消失。

解决办法：用Relu或者tanh。Relu的偏导数一直是1，tanh虽然也可能梯度消失，但是看它图像，偏导数的增长率还是很大的，因此也比sigmoid好。

梯度爆炸：这个好解释，如果对倒数第二层的激活函数开始求偏导数，当它大于1时，后面层数增多以后，梯度就指数爆炸般的上升了。因此梯度值就爆了。

梯度消失不是个需要担心的问题，如果用残差网络，那梯度消失就彻底解决了，因为它反向传播比较好。

用python写一个简单的前向/反向的传播过程：

正向：y=wx 是一个结果=矩阵×矩阵反向：x=y△ 是一个矩阵=结果×梯度

    import numpy as np
    ‘’‘
    前向传播
    ’‘’
    w = np.random.randn(2, 3)
    x = np.random.randn(3, 5)
    y = w.dot(x)

    ‘’‘
    反向传播
    ’‘’
    dy = np.random.randn(*y.shape())
    dw = dy.dot(x.T)
    dx = w.T.dot(dy)

注意矩阵的翻转。

爱吃冰淇凌的羊驼

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
梯度的理解

梯度：高数的知识，是个向量，每点只有一个梯度。梯度的方向：与这个函数在该点增长最快的方向一致。梯度的大小：|梯度|=max(方向导数)。梯度下降法：求损失函数最小值。求解步骤是：先对f(x)求梯度△，再向着和梯度相反的方向移动x，不断移动，直到两次迭代算出来的f(x)差值基本上不变了，就算迭代收敛了，完成。因此每次迭代就把x更新成x-λ△，就是x-步长×梯度。梯度消失：靠近输出层...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。