adagrad原理李宏毅机器学习

最新推荐文章于 2023-04-13 13:03:15 发布

Simone Zeng

最新推荐文章于 2023-04-13 13:03:15 发布

阅读量494

点赞数

分类专栏：机器学习

原文链接：https://www.jianshu.com/p/a8637d1bb3fc

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这一系列的博客，主要是记录在学校的Machine Learning实践课中，一些学习的过程，以及自己补充的基础知识（以引用来表示）。原理在西瓜书上都有，因此本系列博客主要是用python来实现，会包含一些公式。
“机器学习就是自动找函数”

转发一篇博客，是对adagrad的一点理解

链接：https://www.jianshu.com/p/a8637d1bb3fc

在看到李宏毅老师讲gradient decent的时候，讲到Adagrad方法，这里记录一下。

Adagrad是解决不同参数应该使用不同的更新速率的问题。Adagrad自适应地为各个参数分配不同学习率的算法。其公式如下：

但是我们发现一个现象，本来应该是随着gradient的增大，我们的学习率是希望增大的，也就是图中的gt；但是与此同时随着gradient的增大，我们的分母是在逐渐增大，也就对整体学习率是减少的，这是为什么呢？

这是因为随着我们更新次数的增大，我们是希望我们的学习率越来越慢。因为我们认为在学习率的最初阶段，我们是距离损失函数最优解很远的，随着更新的次数的增多，我们认为越来越接近最优解，于是学习速率也随之变慢

我补充一张ppt：
考虑跨参数，只是比较a，c两点的微分值是不够的
在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
adagrad原理李宏毅机器学习

这一系列的博客，主要是记录在学校的Machine Learning实践课中，一些学习的过程，以及自己补充的基础知识（以引用来表示）。原理在西瓜书上都有，因此本系列博客主要是用python来实现，会包含一些公式。“机器学习就是自动找函数”转发一篇博客，是对adagrad的一点理解链接：https://www.jianshu.com/p/a8637d1bb3fc在看到李宏毅老师讲gradient decent的时候，讲到Adagrad方法，这里记录一下。Adagrad是解决不同参数应该使用不同的.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。