Tensorflow学习第九篇-梯度下降法|可训练变量|自动求导机制 2020-09-20

最新推荐文章于 2024-04-03 18:34:38 发布

轻院豪横同学

最新推荐文章于 2024-04-03 18:34:38 发布

阅读量502

点赞数

分类专栏：面部痤疮项目（TF/机器视觉/深度学习）文章标签： tensorflow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xueying_key/article/details/108690355

版权

面部痤疮项目（TF/机器视觉/深度学习）专栏收录该内容

11 篇文章 0 订阅

订阅专栏

目录

一、求数值解的方法-梯度下降法

二、实现梯度下降法

三、一元线性回归Numpy实现

四、可训练变量

五、自动求导机制-GradientTape

一、求数值解的方法-梯度下降法

找到极值点的速度：步长的大小决定，但是也不是越大越好

步长太小，迭代次数多，收敛慢

步长太大，引起震荡，可能无法收敛

所以这个步长的取值是否可以自动调节呢？

如上图所示，斜率与步长是呈正比例的关系的。

而斜率是可以通过某点的求导获得，然后进行迭代。

但是疑问来了，为什么迭代公式仅仅使用减号，而没有加号呢？其实我们分析发现：

在 x>0 的时候，函数的导数值是是大于零的，也就是曲线是上升趋势，因此减去导数值是朝着极值（较小的值）方向；（不用再计算两个值比较大小了）

在 x<0 的时候，是相反的道理。

二、实现梯度下降法

1、梯度下降法求解一元线性回归问题：

一元线性回归，转换成二元平方损失函数求极值的问题；二元函数使用偏导，求得各个变量的值，使得Loss损失函数最小；从而确定了函数参数。

2.当然，我们还有均方差损失函数：

注意，我们还有一个参数：学习率 $\eta$ ；我们知道只要学习率够小，可以保证一定收敛。但过小则运算缓慢，过大则出现震荡。通常学习率 $\eta$ 属于超参数，即学习之前已经设置，不是通过训练得到的。

三、一元线性回归Numpy实现

学习网站：https://www.bilibili.com/video/BV1D541167N9?p=62

四、可训练变量

tf.Variable()

trainalbe属性

五、自动求导机制-GradientTape

如果想重复使用tape，加上True，运行完后使用del释放：

多元函数求偏导数：

可以嵌套使用，进行二阶求导：

轻院豪横同学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。