【李宏毅机器学习笔记】01_Regression

最新推荐文章于 2024-10-15 11:02:22 发布

子因你太美

最新推荐文章于 2024-10-15 11:02:22 发布

阅读量1k

点赞数

文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/weixin_45268337/article/details/124001010

版权

Regression

基本步骤

Step1： Function Set

使用training data来计算最优的f，以找到 $\hat f$
$f:y = b + w*x_{cp}\\f:y = b + w_1*x_{cp}+w_2*x_{cp}^2\\...\\$
Step2： Goodness of Function

Training Data: $(x,\hat y)$

Loss function: $\Sigma_{n=1}^{10} (\hat y^{n}-(b+w*x_{n}))^2$

$f^* = min_{f} L(f)$

很显然可以用线性规划来做，当然在机器学习中的方法则不同，只要f可微，就可以用梯度下降法
Step3： Optimization

Gradient Descent
1. 首先考虑其中一个参数w
2. 随机选取初始值w
3. 计算该点处微分（梯度），根据微分正负，定义下一步学习是增加还是减少梯度
  
  $w^1 := w^0 \pm \eta *\frac {dL}{dw}|_{w=w^0}$
  
  局部最优、全局最优
如何处理两个参数？

在这里插入图片描述

Step4：结果如何？

testing data

Overfitting

当拟合训练集得非常好、目标函数越复杂时，模型会在测试集上出现较高的误差，也就是过拟合。

正则化regularization

正则化之后，拟合到的曲线会更加平滑，对测试集数据的表现更好

不需要考虑b，bias只能控制曲线偏移，不能控制斜率

在这里插入图片描述

Bias and Variance

$总体期望=E(样本均值)\\总体方差=\frac {N}{N-1}样本方差$

算法的期望预测与真实预测之间的偏差程度称为Bias；

Variance是指预测值与真实预测的分散程度。

**（Underfitting）当model是一个比较简单的方程时，function set的target space较小，因而存在较大的bias、较小的variance；（Overfitting）**当model较为复杂的，会存在较大的variance、较小的bias

How to fix？

large variance：

More data
Regularization（find the balance between bias and variance）

large bias：

change function set

交叉检验集cross validation

在这里插入图片描述

使用validation来评估你使用training set，再选出一个最好的model，这样选出来的model，在testing set上的表现才与现实中的set差距不大。

Gradient Descent

Gradient

$L(\theta)= \left[ \begin{matrix} \delta l(\theta_1)/\delta(\theta_1)\\ \delta l(\theta_2)/\delta(\theta_2) \end{matrix}\right]$

在这里插入图片描述

Learning rate

太大或太小的learning rate都不好，太大会导致找不到最优，太小会导致优化时间过长。

常规的方案是随着参数的更新，减小learning rate

$\eta^t = \frac {\eta}{\sqrt{t+1}}$

Optimism

Adagrad方法

其中g表示微分值

推导流程

在这里插入图片描述

结果
$w^{t+1}:=w^t-\frac {\eta^t}{\sigma^t}g^t\\ w^{t+1}:=w^t-\frac {\frac {\eta}{\sqrt{t+1}}}{\sqrt{\frac {1}{t+1}\Sigma^t_{i=0}(g^i)^2}}g^t\\ w^{t+1}:=w^t-\frac {\eta}{\sqrt{\Sigma^t_{i=0}(g^i)^2}}g^t\\$
其中 $g^t$ 表示一次微分， $\sigma^t$ 表示二次微分的估计值，二者的比值用来评估点到最低点的距离