【无约束最优化】梯度下降法、牛顿法

最新推荐文章于 2022-12-17 21:58:29 发布

一条长直线

最新推荐文章于 2022-12-17 21:58:29 发布

阅读量313

点赞数

分类专栏：数学基础文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_47206104/article/details/120498257

版权

无约束最优化

无约束优化问题是是机器学习中最普遍、最简单的优化问题。
最小值时 $x^*=min_xf(x),x∈R^n,f(x)为多维的$ 。

梯度下降（GD）

运用：在MLE、MAP里求最大值、最小值的点。
由于很多情况下 $f (w)$ 无法求导，就引入了梯度下降。
梯度：本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。
和初始值、步长有关。

实现过程

Loss 函数（已知）：J(w)
初始值（ $w_i$ 自定）
步长（ $\alpha$ 自定：0.01、0.001。不能垮的太远）：方向虽然对，但每次走多少不自信所以 $\alpha$ 特别小。也叫学习率，是一个超参数。
梯度 $f(w_i)$

$w_i-\alpha ▽f(w_i)=w_{i+1}$ ，循环下去就可以找到最小值。一直沿着改变最快的反方向走就可以找到最小值。

终止条件

第i步的函数值与第i-1次的函数值相差 < $\epsilon$ 。 $\epsilon$ 是事先定的一个值
循环次数n>N(最大迭代次数) 。N是事先定的一个值
梯度的模长小于事先定的值。也就是变化不大了

优点

简单
计算量小

缺点

陷入局部最优。梯度下降不一定能找到全局最优解，找到的有可能是一个局部最优解。
但如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。
易震荡
一次收敛
收敛速度慢，迭代速度慢，次数多

BGD、SGD、MBGD

BGD 全批量梯度下降
SGD 随机梯度下降
MBGD 小批量梯度下降法（效果最好）

举例

设共有N个样本。 $x^1,x^2...x^N;x^i∈R^{100}$ 。 $y^1,y^2...y^N;y^i∈\{0,1,2,3...9\}$

损失函数： $J(w_1,w_2)=J_1(w_1,w_2,x^1,y^1)+J_2(w_1,w_2,x^2,y^2)+...+J_1(w_1,w_2,x^N,y^N)=\sum^N_{i=1}J_i(w_1,w_2,x^i,y^i)$

随机梯度下降SCG

初始 $(w^0_1,w^0_2)$

$w_1^1=w^0_1-\lambda \frac{\partial J_1}{\partial w_1}|_{w_1=w^0_1}$ $\Rightarrow$ $w_1^2=w^1_1-\lambda \frac{\partial J_2}{\partial w_1}|_{w_1=w^1_1}$

$w_2^1=w^0_2-\lambda \frac{\partial J_1}{\partial w_2}|_{w_2=w^0_2}$ $\Rightarrow$ $w_2^2=w^1_2-\lambda \frac{\partial J_2}{\partial w_2}|_{w_2=w^1_2}$

最低0.47元/天解锁文章

一条长直线

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【无约束最优化】梯度下降法、牛顿法

无约束最优化无约束优化问题是是机器学习中最普遍、最简单的优化问题。最小值时 x∗=minxf(x),x∈Rn,f(x)为多维的x^*=min_xf(x),x∈R^n,f(x)为多维的x∗=minxf(x),x∈Rn,f(x)为多维的。梯度下降（GD）运用：在MLE、MAP里求最大值、最小值的点。由于很多情况下f(w)f(w)f(w)无法求导，就引入了梯度下降。梯度：本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变
复制链接

扫一扫

专栏目录