深度学习34-梯度、求导和损失值优化策略

本文深入探讨了深度学习中的优化问题,主要关注如何降低损失函数。介绍了反向传播的基本原理,包括梯度和学习率的概念。讨论了局部最优、鞍点和梯度消失现象,提出了解决这些问题的方法,如小批量训练和动态学习率调整。文章还对比了不同优化算法的收敛性能,并给出了部分代码实现的概要。
摘要由CSDN通过智能技术生成

这里的优化只是指降低损失值,和模型优化不一样,这里只关注小的方面,不关注模型结构等。

1 反向传播原理

1.1 梯度

1.2 学习率

1.3 链式求导

在这里插入图片描述

在这里插入图片描述

1 目标

优化的目标在于降低训练损失,只关注最小化目标函数上的表现
深度学习问题中,我们通常会预先定义一个损失函数。有了损失函数以后,我们就可以使用优化算法试图将其最小化。在优化中,这样的损失函数通常被称作优化问题的目标函数(objective function)。依据惯例,优化算法通常只考虑最小化目标函数。

2 为什么要优化

在这里插入图片描述

2.1 局部最优

对于目标函数f(x),如果f(x)在x上的值比在x邻近的其他点的值更小,那么f(x)可能是一个局部最小值(local minimum)。如果f(x)在x上的值是目标函数在整个定义域上的最小值,那么f(x)是全局最小值(global minimum)。
比如下面给定的函数

在这里插入图片描述
在这里插入图片描述

2.2 鞍点

在这里插入图片描述
在这里插入图片描述

2.3 梯度消失

在这里插入图片描述

3 解决方法

其中局部最优的问题有一种方法
梯度消失大的方面分为4个方法,每个大的方面又有好几种方法

3.1 海森矩阵(解决局部最优)

在这里插入图片描述

3.2 解决梯度消失

3.2.1 MiNi分批训练

在这里插入图片描述
批次量大小选择
在这里插入图片描述

3.2.2 3种大的优化方法(难理解)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

所有优化算法效果对比
收敛对比
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
学习率退火跟模拟退火法一样,或者使用动态学习率
在这里插入图片描述

在这里插入图片描述

3 代码

待完成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晓码bigdata

如果文章给您带来帮助,感谢打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值