线性回归，岭回归

最新推荐文章于 2024-02-12 11:10:38 发布

林淮荣

最新推荐文章于 2024-02-12 11:10:38 发布

阅读量1.9k

点赞数

本文链接：https://blog.csdn.net/weixin_43663780/article/details/105667153

版权

线性回归是统计和机器学习中用于连续值预测的算法，分为一元和多元。它通过找到最佳的直线或超平面来拟合数据点。然而，面临过拟合时，岭回归作为线性回归的改进版，引入了L2正则化来提高模型的泛化能力。在Python的sklearn库中，可以使用LinearRegression和Ridge类进行线性回归和岭回归的实现。通过损失函数最小化，如梯度下降法，优化模型参数，以提高预测的准确性。

摘要由CSDN通过智能技术生成

线性回归

回归算法

回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种，其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测，针对的是数值型的样本，使用回归，可以在给定输入的时候预测出一个数值，这是对分类方法的提升，因为这样可以预测连续型数据而不仅仅是离散的类别标签。
回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。那么什么是线性关系和非线性关系？
比如说在房价上，房子的面积和房子的价格有着明显的关系。那么X=房间大小，Y=房价，那么在坐标系中可以看到这些点：
在这里插入图片描述
如果是一条曲线，那么叫非线性关系
那么回归的目的就是建立一个回归方程（函数）用来预测目标值，回归的求解就是求这个回归方程的回归系数。

回归算法之线性回归

线性回归的定义是：目标值预期是输入变量的线性组合。线性模型形式简单、易于建模，但却蕴含着机器学习中一些重要的基本思想。线性回归，是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。

在这里插入图片描述
矩阵就是为了服务运算先横后束 numpy

优缺点

在这里插入图片描述
对于单变量线性回归，例如：前面房价例子中房子的大小预测房子的价格。f(x) = w1x+w0，这样通过主要参数w1就可以得出预测的值。
通用公式为：那么对于多变量回归，例如：瓜的好坏程度 f(x) = w0+0.2色泽+0.5根蒂+0.3敲声，得出的值来判断一个瓜的好与不好的程度。
通用公式为
在这里插入图片描述线性模型中的向量W值，客观的表达了各属性在预测中的重要性，因此线性模型有很好的解释性。对于这种“多特征预测”也就是（多元线性回归），那么线性回归就是在这个基础上得到这些W的值，然后以这些值来建立模型，预测测试数据。简单的来说就是学得一个线性模型以尽可能准确的预测实值输出标记。
那么如果对于多变量线性回归来说我们可以通过向量的方式来表示W值与特征X值之间的关系在这里插入图片描述
一个列向量的转置与特征的乘积，得出我们预测的结果，但是显然我们这个模型得到的结果可定会有误差，如下图所示

损失函数

损失函数是一个贯穿整个机器学习重要的一个概念，大部分机器学习算法都会有误差，我们得通过显性的公式来描述这个误差，并且将这个误差优化到最小值
对于线性回归模型，将模型与数据点之间的距离差之和做为衡量匹配好坏的标准，误差越小,匹配程度越大。我们要找的模型就是需要将f(x)和我们的真实值之间最相似的状态。于是我们就有了误差公式，模型与数据差的平方和最小：
在这里插入图片描述上面公式定义了所有的误差和，那么现在需要使这个值最小？那么有两种方法，一种使用梯度下降算法，另一种使正规方程解法（只适用于简单的线性回归）。

梯度下降算法

上面误差公式是一个通式，我们取两个单个变量来求最小值，误差和可以表示为：
在这里插入图片描述可以通过调整不同的
的值，就能使误差不断变化，而当你找到这个公式的最小值时，你就能得到最好的而这对就是能最好描述你数据关系的模型参数。
怎么找的最小?的图像其实像一个山谷一样，有一个最低点。找这个最低点的办法就是，先随便找一个点，然后沿着这个碗下降的方向找，最后就能找到山谷的最低点。

在这里插入图片描述

LinearRegression

sklearn.linear_model.LinearRegression

class LinearRegression(fit_intercept = True，normalize = False，copy_X = True，n_jobs = 1)
  """
  :param normalize:如果设置为True时，数据进行标准化。请在使用normalize = False的估计器调时用fit之前使用preprocessing.StandardScaler

  :param copy_X:boolean，可选，默认为True，如果为True，则X将被复制

  :param n_jobs：int，可选，默认1。用于计算的CPU核数

实例代码：

from sklearn.linear_model import LinearRegression
reg = LinearRegression()

方法
fit(X,y,sample_weight = None)
使用X作为训练数据拟合模型，y作为X的类别值。X，y为数组或者矩阵

reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])

predict(X)
预测提供的数据对应的结果

reg.predict([[3,3]]

最低0.47元/天解锁文章

林淮荣

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫