吴恩达老师深度学习笔记第二课(第二周)

第二周优化算法

2.1Mini_batch梯度下降算法
①向量化可以让你相对较快的处理所有m个样本,但是如果m很大,处理速度仍然缓慢
②传统的梯度下降算法,需要先处理所有数据,然后进行下一步梯度下降算法
把训练集分割成小一点的子训练集,这些子集取名为Mini_batch(然后每处理一个子集,就把他传下去进行下一步梯度下降算法),同样也要拆分y训练集。
③我的理解:就是不再把所有数据向量化一个大向量,而是多个小向量
2.2理解mini_batch梯度下降算法
在这里插入图片描述
①需要决定mini_batch的参数值
两个极端情况,选择合适的mini_batch的值就是在两者之间权衡
选择合适的mini_batch值:一方面得到大量向量化,另一方面不需要等待整个训练集被处理完,就可以开始进行后续工作(但是他没有告诉我多大是合适,老师举的一个例子:5000000拆成1000(mini_batch)*5000)
2.3指数加权(移动)平均
主要讲述了怎么计算指数加权移动平均
在这里插入图片描述
在这里插入图片描述
2.4理解指数加权平均
在这里插入图片描述
② 实质,就是在每一个位置的平均值,其他位置的值按照指数函数值加权平均
在这里插入图片描述
2.5指数加权平均的偏差修正
直观感受一下偏差修正的功能
②计算方法:不用 v_t 而是用v_t除以(1-β**t),当t很大,分母几乎为1,偏差修正几乎没有作用,但是可以很好改善,在前期由于令V_t(0)= 0引起的问题
2.6动量梯度下降法(Momentum)梯度下降法
①定义:计算梯度的植树加权平均数并利用一度更新你的权值(我觉得:这大概是指数加权平均在深度学习的应用)
②举例理解
在这里插入图片描述
你希望在横轴上速度快一点(且平均数较大),但是希望在纵轴上的摇摆小一点(且平均数接近0),这样学习速率会变快
③计算方法
两个超参数:学习率α和参数β,参数β控制着指数加权平均数常用是0.9
2.7RMSprop
①可以加速梯度下降
②计算过程其实我没怎么看懂(就是想让dw变大,db小一点)
在这里插入图片描述
2.8Adam优化算法
①作用:同样是用于加速算法,法则基本上就是将Momentum和RMSprop结合起来
②运行方法:首先初始化
在这里插入图片描述
在这里插入图片描述
③超参数
在这里插入图片描述
2.9学习率衰减
①加速学习算法的一个办法:随时间慢慢减少学习率
在这里插入图片描述
②计算方法
在这里插入图片描述
在这里插入图片描述

2.10局部最优问题
(没太懂)
局部最优解的问题不是问题
它的问题在于平滑阶段学习速率的问题
当维度十分的高
不同维度在一个位置的成本函数的大小很难统一

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我爱编程皮肤好好

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值