机器学习初学者笔记(二)

7 工作流程:

输入一个x,然后通过学习算法能够输出函数H,进而预测y。 这里的函数H是假设函数是一个引导x到y的函数。

8 如何决定函数h?通过利用代价函数

若有训练集以及一个函数,则代价函数为 (这里m前有2是为了方便求导,下一步需要求解其最小值以使\theta_{0}, \theta_{1}最优。求解最小化J函数为cost function。

9  如何确定代价函数的最小值对应的\theta_{0}, \theta_{1}最优?  利用梯度下降法

梯度下降法的思想是:开始时随机给定一个参数的组合 ,计算代价函数,然后寻找下一个能让代价函数值下降最多的参数组合,持续这么做直到到到一个局部最小值。由于给定的初始值不同 则其局部最优解也不同。

梯度下降法的公式为:{\theta_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}J\left(\theta \right)    其中\alpha为学习率,在这个式子中最重要的是做到同步更新

对于这个式子,就是对 赋值,使得 按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。

如图所示 求导部分就是在某一点进行求导如图中的红色直线,求完导数后,得到的新的 更新后等于 减去一个正数乘以

对于学习率\alpha。如果它太小了,结果就是只能一点点地挪动,去接近最低点,这样就需要很多步才能到达最低点,导致所花费的时间过多。

如果其太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到发现实际上离最低点越来越远,所以,如果学习率太大,它会导致无法收敛,甚至发散。

那么学习率的选择对于梯度下降法则非常重要。但在梯度下降过程中,不需要更改学习率,原因如下:

随着梯度下降法的进行,导数(斜率)会逐渐减小,如图所示,这会使得 更新的幅度变小。所以随着梯度下降法的运行,移动的幅度会自动变得越来越小,直到最终移动幅度非常小,最后实现收敛到局部极小值。因此不需要额外减小学习率。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zdswyh123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值