ML（二）

最新推荐文章于 2024-06-15 23:18:53 发布

Rebirth-LSS

最新推荐文章于 2024-06-15 23:18:53 发布

阅读量98

点赞数 1

分类专栏：机器学习文章标签： sklearn 机器学习

本文链接：https://blog.csdn.net/weixin_46618351/article/details/120736441

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

线性模型

线性模型是最简单的模型之一，它描述了一个（或多个）自变量对另一个因变量的影响是呈简单的比例，线性关系

输入(x)	输出(y)
0.5	5.0
0.6	5.5
0.8	6.0
1.1	6.8
1.4	6.8

根据一组输入和输出（这叫做样本），寻找一个线性模型，这个线性模型能最优化的去拟合这些样本的数值分布。
在这里插入图片描述
线性模型在二维空间内表现为一条直线，再三维空间内表现为一个平面，更高维度下的线性模型是很难用几何图形来表示的（称为超平面），这个主要是有线性模型中的自变量的个数所影响。

设给定一组属性 $x, x=(x_1;x_2;...;x_n)$ ，线性方程的一般表达形式为：
$y = w_1x_1 + w_2x_2 + w_3x_3 + ... + w_nx_n + b$
写成向量形式为：
$y = w^Tx + b$
其中， $w=(w_1;w_2;...;w_n), x=(x_1;x_2;...;x_n)$ ，w和b经过学习后，模型就可以确定. 当自变量数量为1时，上述线性模型即为平面下的直线方程：
$y = w x + b$

线性模型的训练

在这里插入图片描述
从图中我们可以看出，二维平面中，当我们的样本点过多的时候，我们训练的线性模型并没有拟合到100%（当然，这几乎也是不可能的），我们只能找到一条与这些样本点几乎接近，或者说，模型与样本点的距离足够小的直线。

样本到直线的距离我们称为欧氏距离

那么问题来了，我们怎样要使样本与直线的距离最近呢？我们可以用损失函数来进行度量

损失函数：真实值（由样本中给出）和预测值（由模型算出）之间的差异.损失函数值越小，表明模型预测值和真实值之间差异越小，模型性能越好；损失函数值越大，模型预测值和真实值之间差异越大，模型性能越差.
在回归问题中，均方差是常用的损失函数，这里的前面乘以2/1,也可以乘以4/1，除以N，都没有错，只影响损失函数的大小，不会影响这个值所代表的性质，平方是避免存在复数，不采用绝对值
$\frac{1}{2}\sum_{i=1}^{n}{(y - y')^2}$

y为模型预测值，y’为真实值
$(w^*, b^*) = arg min \frac{1}{2}\sum_{i=1}^{n}{(y - y')^2} \\ = arg min \frac{1}{2}\sum_{i=1}^{n}{(y' - wx_i - b)^2}$

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”. 线性回归中，最小二乘法就是试图找到一条直线，是所有样本到直线的欧式距离之和最小. 可以将损失函数对w和b分别求导，得到损失函数的导函数，并令导函数为0即可得到w和b的最优解

这里我们得到的损失函数是关于w，b
y‘已知，只有w和b是未知，所以，我们想要 $\frac{1}{2}\sum_{i=1}^{n}{(y' - wx_i - b)^2}$ 这个值最小，我们只需要求出w和b的min就行，这个情况下，就要用到梯度下降法来训练出最优的w和b

梯度下降法

梯度（gradient）是一个向量（矢量，有方向），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大.损失函数沿梯度相反方向收敛最快（即能最快找到极值点）.当梯度向量为零（或接近于零），说明到达一个极值点，这也是梯度下降算法迭代计算的终止条件.

最初的w或者b参数可能是最不准确的，那时的斜率很大，收敛速度比较快，当向负方向进行收敛的是时候，当快要接近极值的时候，它会收敛的越来越慢，梯度越来越小。（数学上的意义，参数更新法则）

这种按照负梯度不停地调整函数权值的过程就叫作“梯度下降法”.通过这样的方法，改变权重让损失函数的值下降得更快，进而将值收敛到损失函数的某个极小值.

参数更新法则

在直线方程中，有两个参数需要学习， $w_0$ 和 $w_1$ ，梯度下降过程中，分别对这两个参数单独进行调整，调整法则如下：
$\Delta w_0$ 就是梯度，要收敛的量， $w_0$ ，就是原始的参数 $w_0$

$w_0 = w_0 + \Delta w_0\\ w_1 = w_1 + \Delta w_1$
$\Delta w_0$ 和 $\Delta w_1$ 可表示为：
$-\eta \frac{\Delta loss}{\Delta w_0}$ 和 $-\eta \frac{\Delta loss}{\Delta w_1}$ 可以理解为 $\Delta w_0$ $\Delta w_1$ 对损失函数的影响。也就是一个对 $\Delta w_0$ 求偏导，一个对 $\Delta w_1$ 求偏导，前面的负号是控制收敛的方向的，向负梯度的方向
在这里插入图片描述

梯度越大，调整越大，梯度越小，调整的越微弱

$\Delta w_0 = -\eta \frac{\Delta loss}{\Delta w_0}\\ \Delta w_1 = -\eta \frac{\Delta loss}{\Delta w_1}\\$
其中， $\eta$ 称为学习率（控制在0-1之间）， $\frac{\Delta loss}{\Delta w_i}$ 为梯度（即损失函数关于参数 $w_i$ 的偏导数）. 损失函数表达式为：
$=\frac{1}{2}\sum(y - y')^2 = \frac{1}{2}\sum((y-(w_0+w_1x))^2)$
对损失函数求导（求导过程见补充知识），可得 $w_0, w_1$ 的偏导数为：
$\frac{\Delta loss}{\Delta w_0} = \sum((y - y')(-1)) = -\sum(y - y')\\ \frac{\Delta loss}{\Delta w_1} = \sum((y - y')(-x)) = -\sum(x(y - y'))$

理解线性模型和梯度下降建议从数学意义上去理解，从根的角度去理解更好

下面是对损失函数的求导过程

$y' = w_0 + w_0 x_1$
采用均方差损失函数：
$\frac{1}{2} (y - y')^2$
其中，y为真实值，来自样本；y’为预测值，即线性方程表达式，带入损失函数得：
$\frac{1}{2} (y - (w_0 + w_1 x_1))^2$
将该式子展开：
$\frac{1}{2} (y^2 - 2y(w_0 + w_1 x_1) + (w_0 + w_1 x_1)^2) \\ \frac{1}{2} (y^2 - 2y*w_0 - 2y*w_1x_1 + w_0^2 + 2w_0*w_1 x_1 + w_1^2x_1^2) \\$
对 $w_0$ 求导：
$\frac{\partial loss}{\partial w_0} = \frac{1}{2}(0-2y-0+2w_0 + 2w_1 x_1 +0) \\ =\frac{1}{2}(-2y + 2 w_0 + 2w_1 x_1) \\ = \frac{1}{2} * 2(-y + (w_0 + w_1 x_1)) \\ =(-y + y') = -(y - y')$
对 $w_1$ 求导：
$\frac{\partial loss}{\partial w_1} = \frac{1}{2}(0-0-2y*x_1+0+2 w_0 x_1 + 2 w_1 x_1^2) \\ = \frac{1}{2} (-2y x_1 + 2 w_0 x_1 + 2w_1 x_1^2) \\ = \frac{1}{2} * 2 x_1(-y + w_0 + w_1 x_1) \\ = x_1(-y + y') = - x_1(y - y')$

Rebirth-LSS

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ML（二）

线性模型线性模型是最简单的模型之一，它描述了一个（或多个）自变量对另一个因变量的影响是呈简单的比例，线性关系输入(x)输出(y)0.55.00.65.50.86.01.16.81.46.8根据一组输入和输出（这叫做样本），寻找一个线性模型，这个线性模型能最优化的去拟合这些样本的数值分布。线性模型在二维空间内表现为一条直线，再三维空间内表现为一个平面，更高维度下的线性模型是很难用几何图形来表示的（称为超平面），这个主要是有线性模型中的自变量的
复制链接

扫一扫