线性回归的方法做异常检测：最小二乘法与梯度下降法

最新推荐文章于 2024-03-08 06:03:45 发布

蒽，开心(∩_∩)

最新推荐文章于 2024-03-08 06:03:45 发布

阅读量878

点赞数

分类专栏： pandas 文章标签：机器学习可视化 python

本文链接：https://blog.csdn.net/weixin_43760440/article/details/116863939

版权

pandas 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了最小二乘法在求解线性回归参数中的应用，通过数学推导展示了如何找到误差最小的最优参数。同时，详细阐述了梯度下降法用于优化损失函数的过程，包括其迭代公式和在不同维度问题上的应用。文中还通过实例直观地展示了梯度下降法在找寻一元和多元函数极值点时的效果。最后讨论了两者在实际问题中的结合使用。

摘要由CSDN通过智能技术生成

在这里插入图片描述

1.最小二乘法
最小二乘法其实就是利用误差最小化求解线性回归参数的方法。
一元多维线性回归：
$Y=\sum_{i=1}^{d} a_{i} \cdot X_{i}+a_{d+1}$
分析其中一维：
$y_{j}=\sum_{i=1}^{d} a_{i} \cdot x_{j i}+a_{d+1}+\epsilon_{j}$
以 $U$ 代表 $\times (d+1)$ 的自变量矩阵，以 $A$ 代表 $\times 1$ 的系数矩阵 $a_{1}...a_{d+1})^{T}$ 。那么误差的目标函数为：
$\frac{1}{2}{\left| {Y - U \cdot A} \right|^2}$
想要求误差最小值，那么就对L(A) 求偏导：

$\frac{{\partial L(A)}}{{\partial A}} = \frac{1}{2}\frac{{\partial {{\left| {Y - U \cdot A} \right|}^2}}}{{\partial A}} = - {U^T}(Y - U \cdot A)$

令 $\frac{{\partial L(A)}}{{\partial A}}=0$ ，得到最优参数为：

$A=\left(U^{T} \cdot U\right)^{-1} \cdot\left(U^{T} \cdot Y\right)$
算出A即可得到最终的回归方程。
这里附上通俗易懂的最小二乘法解释：link

2.梯度下降法
主要用于优化损失函数
$l^{(i)}(\mathbf{w}, b)=\frac{1}{2}\left(\hat{y}^{(i)}-y^{(i)}\right)^{2}$ $

$L(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^{n} l^{(i)}(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^{n} \frac{1}{2}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right)^{2}$

迭代公式：
$(\mathbf{w}, b) \leftarrow(\mathbf{w}, b)-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w}, b)} l^{(i)}(\mathbf{w}, b)$
字面来讲就是，下一次迭代的代入值是函数在上一次的代入值减去在该点的导数乘以学习率
学习率。
( $\eta$ ): 代表在每次优化中，能够学习的步长的大小，一般设置小于1，批量大小( $B$ ): 是小批量计算中的批量大小。
不太好懂，再附一个通俗易懂的链接吧：link