详解梯度下降的原理及应用【学不会来打我啊】

最新推荐文章于 2024-07-25 19:00:00 发布

weixin_46525182

最新推荐文章于 2024-07-25 19:00:00 发布

阅读量825

点赞数 2

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_46525182/article/details/123514851

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1引言

最近在接触深度学习方面的相关知识，但是在学习的过程中，经常碰到这个词【梯度下降】，一开始我是真的没搞明白，但是有感觉这个东西又挺重要的，所以就查了很多资料，但是对于小白来讲，很少有解释清楚的，自己在阅读了一些文献和代码之后，对梯度下降有了一些新的理解，特此分享出来，希望对于一些同学有帮助，也希望看完之后点个赞，赠人一赞，手留知识。

2 正文

梯度下降算法呢，他的作用就是用来求函数的最小值，以 $y= x^2+1$ 这个函数为例吧，显然我们根据所学的知识一眼就可以看出它在 $x = 0$ 处有最小值，但是对于计算机来说，他可不知道啊！想一想，在 $x = 0$ 处，有什么特征呢？或者用我们所学知识可以想到，在某一点的导数等于0时，函数在这个点有极值。
对于 $y= x^2+1$ 这个函数而言，导数 $\over dx }=2x$ 我们可以先随意取一个x的值，如 $x_0=8$ ，那么在这个点的导数值为16，如果我们想减小导数值的大小，即让导数趋近于0，我们只能减小x的大小，但是计算机怎么知道x到底减小多少才合适呢？所以就需要一个迭代的过程，这里就是 $x_1=x_0-lr*2x_0$ lr是一个超参数，也就是经常说的学习率，这里就取 $l r = 0.1$ 吧。那么可以得到 $x_1=0.64$ ,然后再使用公式 $x_2=x_1-lr*2x_1$ 得到 $x_2=0.512$ ,看到这里有没有发现 $x_0,x_1,x_2$ 在依次减小，即向着 $x = 0$ 靠近，经过多次循环以后，x就变为一个非常接近于0的数，此时，在该点的函数值即为函数的最小值。

这里要强调一下，虽然lr的大小是自己取的，但是也不能太离谱，取值过大，如 $l r = 3$ ,你将会发现x的值越来越震荡，最终趋于无穷。取值过小，迭代的会非常慢，需要迭代很多次才行，严重影响效率。

上面讲的是一元函数的情况，如果是多元函数呢？那么就对函数的自变量求偏导才行，

weixin_46525182

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
详解梯度下降的原理及应用【学不会来打我啊】

1引言最近在接触深度学习方面的相关知识，但是在学习的过程中，经常碰到这个词【梯度下降】，一开始我是真的没搞明白，但是有感觉这个东西又挺重要的，所以就查了很多资料，但是对于小白来讲，很少有解释清楚的，自己在阅读了一些文献和代码之后，对梯度下降有了一些新的理解，特此分享出来，希望对于一些同学有帮助，也希望看完之后点个赞，赠人一赞，手留知识。2 正文梯度下降算法呢，他的作用就是用来求函数的最小值，以y=x2+1y= x^2+1y=x2+1这个函数为例吧，显然我们根据所学的知识一眼就可以看出它在x=0x=0x
复制链接

扫一扫

专栏目录