Datawhale X 李宏毅苹果书 AI夏令营入门班Task1

最新推荐文章于 2024-08-31 23:13:29 发布

wtby1234

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量120

点赞数 2

文章标签：人工智能

本文链接：https://blog.csdn.net/wtby1234/article/details/141528343

版权

函数： $y = b + \omega x_1$

带有未知的参数（parameter）的函数称为模型（model）

$\omega$ 称为权重（weight），b 称为偏置（bias）

损失是函数 L(b, $\omega$ )，其输入是模型参数 b 跟 $\omega$ ；输出的值代表，现在如果把这一组未知的参数，设定某一个数值的时候，这笔数值好还是不好，输出值越接近0越好。

梯度下降（gradient descent）是经常会使用优化的方法。为了要简化起见，先假设只有一个未知的参数 $\omega$ ，b 是已知的。计算初始点 $\omega_0$ 的微分，根据微分正负决定方向，根据下面两点决定步伐大小。

第一件是这个地方的斜率，斜率大步伐就跨大一点，斜率小步伐就跨小一点。
另外，学习率（learning rate）η 也会影响步伐大小。学习率是自己设定的，如果 η 设大一点，每次参数更新就会量大，学习可能就比较快。如果 η 设小一点，参数更新就很慢，每次只会改变一点点参数的数值。这种在做机器学习，需要自己设定，不是机器自己找出来的，称为超参数（hyperparameter）。

不断地移动 w 的位置，最后会停下来。往往有两种情况会停下来。

关注