线性回归算法

最新推荐文章于 2024-08-29 20:32:56 发布

看朱成碧纷思君

最新推荐文章于 2024-08-29 20:32:56 发布

阅读量190

点赞数

文章标签：线性回归算法回归

本文链接：https://blog.csdn.net/weixin_44913071/article/details/133072871

版权

本文详细介绍了回归算法在机器学习中的应用，包括线性回归的定义、多元线性回归、广义线性回归的求解方法，以及最小二乘法、梯度下降法和优化策略。特别讨论了最小二乘法与最小绝对值法的优缺点，以及如何通过HuberLoss改进。

摘要由CSDN通过智能技术生成

一、对于回归的理解

回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种，其实就是根据类别标签分布类型为离散型、连续性而定义的。顾名思义，分类算法用于离散型分布预测，如KNN、决策树、朴素贝叶斯、adaboost、SVM、Logistic回归都是分类算法；回归算法用于连续型分布预测，针对的是数值型的样本，使用回归，可以在给定输入的时候预测出一个数值，这是对分类方法的提升，因为这样可以预测连续型数据而不仅仅是离散的类别标签。
回归的目的就是建立一个回归方程用来预测目标值，回归的求解就是求这个回归方程的回归系数。预测的方法当然十分简单，回归系数乘以输入值再全部相加就得到了预测值。

1、回归的定义

回归最简单的定义是，给出一个点集D，用一个函数去拟合这个点集，并且使得点集与拟合函数间的误差最小，如果这个函数曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归。

2、多元线性回归

假定预测值与样本特征间的函数关系是线性的，回归分析的任务，就在于根据样本X和Y的观察值，去估计函数h，寻求变量之间近似的函数关系。定义：

其中，n = 特征数目；
xj = 每个训练样本第j个特征的值，可以认为是特征向量中的第j个值。
为了方便，记x0= 1，则多变量线性回归可以记为：
，(θ、x都表示(n+1，1)维列向量)

Note：注意多元和多次是两个不同的概念，“多元”指方程有多个参数，“多次”指的是方程中参数的最高次幂。多元线性方程是假设预测值y与样本所有特征值符合一个多元一次线性方程。

3、广义线性回归

广义的线性函数：

wj是系数，w就是这个系数组成的向量，它影响着不同维度的Φj(x)在回归函数中的影响度，Φ(x)是可以换成不同的函数，这样的模型我们认为是广义线性模型，Φ(x)=x时就是多元线性回归模型。逻辑回归就是一个广义的线性回归。

二、线性回归方程的求解

假设有连续型值标签(标签值分布为Y)的样本，有X={x1,x2,…,xn}个特征，回归就是求解回归系数θ=θ0, θ1,…,θn。那么，手里有一些X和对应的Y,怎样才能找到θ呢？在回归方程里，求得特征对应的最佳回归系数的方法是最小化误差的平方和，这里的误差是指预测y值和真实y值之间的差值，采用平方误差（最小二乘法）。平方误差可以写做：