深度学习34-梯度、求导和损失值优化策略

晓码bigdata

已于 2022-11-24 09:58:36 修改

阅读量929

点赞数

分类专栏： # 深度学习基础知识文章标签：深度学习人工智能

于 2021-04-02 11:43:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaotiig/article/details/115392965

版权

深度学习基础知识专栏收录该内容

47 篇文章 58 订阅

订阅专栏

本文深入探讨了深度学习中的优化问题，主要关注如何降低损失函数。介绍了反向传播的基本原理，包括梯度和学习率的概念。讨论了局部最优、鞍点和梯度消失现象，提出了解决这些问题的方法，如小批量训练和动态学习率调整。文章还对比了不同优化算法的收敛性能，并给出了部分代码实现的概要。

摘要由CSDN通过智能技术生成

这里的优化只是指降低损失值，和模型优化不一样，这里只关注小的方面，不关注模型结构等。

1 反向传播原理

1.1 梯度

1.2 学习率

1.3 链式求导

在这里插入图片描述

在这里插入图片描述

1 目标

优化的目标在于降低训练损失，只关注最小化目标函数上的表现
深度学习问题中，我们通常会预先定义一个损失函数。有了损失函数以后，我们就可以使用优化算法试图将其最小化。在优化中，这样的损失函数通常被称作优化问题的目标函数（objective function）。依据惯例，优化算法通常只考虑最小化目标函数。

2 为什么要优化

在这里插入图片描述

2.1 局部最优

对于目标函数f(x)，如果f(x)在x上的值比在x邻近的其他点的值更小，那么f(x)可能是一个局部最小值（local minimum）。如果f(x)在x上的值是目标函数在整个定义域上的最小值，那么f(x)是全局最小值（global minimum）。
比如下面给定的函数

在这里插入图片描述

2.2 鞍点

在这里插入图片描述

2.3 梯度消失

在这里插入图片描述

3 解决方法

其中局部最优的问题有一种方法
梯度消失大的方面分为4个方法，每个大的方面又有好几种方法

3.1 海森矩阵（解决局部最优）

在这里插入图片描述

3.2 解决梯度消失

3.2.1 MiNi分批训练

在这里插入图片描述
批次量大小选择

3.2.2 3种大的优化方法（难理解）

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

所有优化算法效果对比
收敛对比
在这里插入图片描述

学习率退火跟模拟退火法一样，或者使用动态学习率

在这里插入图片描述

3 代码

待完成

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

晓码bigdata 如果文章给您带来帮助，感谢打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。