线性回归梳理

最新推荐文章于 2022-03-09 00:08:01 发布

天份横流

最新推荐文章于 2022-03-09 00:08:01 发布

阅读量256

点赞数

分类专栏：算法梳理文章标签：算法

算法梳理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

监督学习（supervised learning）

从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。
监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息，对于神经网络，分类系统利用信息判断网络的错误，然后不断调整网络参数。对于决策树，分类系统用它来判断哪些属性提供了最多的信息。
常见的有监督学习算法：回归分析和统计分类。最典型的算法是KNN和SVM。

无监督学习（unsupervised learning）

输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。
非监督学习目标不是告诉计算机怎么做，而是让它（计算机）自己去学习怎样做事情。非监督学习有两种思路。第一种思路是在指导Agent时不为其指定明确分类，而是在成功时，采用某种形式的激励制度。需要注意的是，这类训练通常会置于决策问题的框架里，因为它的目标不是为了产生一个分类系统，而是做出最大回报的决定，这种思路很好的概括了现实世界，agent可以对正确的行为做出激励，而对错误行为做出惩罚。
无监督学习的方法分为两大类：
(1) 一类为基于概率密度函数估计的直接方法：指设法找到各类别在特征空间的分布参数，再进行分类。
(2) 另一类是称为基于样本间相似性度量的简洁聚类方法：其原理是设法定出不同类别的核心或初始内核，然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。
利用聚类结果，可以提取数据集中隐藏信息，对未来数据进行分类和预测。应用于数据挖掘，模式识别，图像处理等。
PCA和很多deep learning算法都属于无监督学习

两者的不同点

有监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。而非监督学习没有训练集，只有一组数据，在该组数据集内寻找规律。
有监督学习的方法就是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身，预先没有什么标签。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不予以某种预先分类标签对上号为目的。
非监督学习方法在寻找数据集中的规律性，这种规律性并不一定要达到划分数据集的目的，也就是说不一定要“分类”。
这一点是比有监督学习方法的用途要广。譬如分析一堆数据的主分量，或分析数据集有什么特点都可以归于非监督学习方法的范畴。
用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。后者从方法上讲不是学习方法。因此用K-L变换找主分量不属于无监督学习方法，即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法

何时采用哪种方法

简单的方法就是从定义入手，有训练样本则考虑采用监督学习方法；无训练样本，则一定不能用监督学习方法。但是，现实问题中，即使没有训练样本，我们也能够凭借自己的双眼，从待分类的数据中，人工标注一些样本，并把它们作为训练样本，这样的话，可以把条件改善，用监督学习方法来做。对于不同的场景，正负样本的分布如果会存在偏移（可能大的偏移，可能比较小），这样的话，监督学习的效果可能就不如用非监督学习了。

泛化能力（generalization ability）

泛化能力（generalization ability）是指一个机器学习算法对于没有见过的样本的识别能力。我们也叫做举一反三的能力，或者叫做学以致用的能力。

举个例子，通过学习，小学生就可以熟练的掌握加减法，那么他们是怎么做到的呢？第一步学生们先感性的知道了在有一个苹果的基础上再拿来一个苹果的话就是一种加法，第二步知道个数可以用阿拉伯数字抽象的表示，到了0到9这十个数字和他们的抽象含义，第三步学习十以内的加减法，第四步推广到了多位数的加减法。

过拟合（over-fitting）

我们训练一个机器学习算法也是如此，通过感性的告诉机器一个加上一个等于两个，之后算法通过自己的学习，推广计算多位数的加减法，多位数的加减法是无穷多个的，如果机器在不断的测试中都能够算对，那么我们认为机器已经总结出了加法的内部规律并且能够学以致用，如果说机器只会计算你给机器看过的比如3+3=6，而不会计算没有教过的8+9=17，那么我们认为机器只是死记硬背，并没有学以致用的能力，也就是说泛化能力非常的低，同时我们也把这种现象叫做这个算法过拟合（over-fitting）了。（过拟合是一种分类器会发生的现象，而泛化能力可以理解为对分类器的一种性能的评价）

过拟合–解决方法

通俗一点地来说过拟合就是模型把数据学习的太彻底(强行拟合)，以至于把噪声数据的特征也学习到了，这样不能够很好的分离（识别）测试数据，模型泛化能力太差。
解决方法：

1 重新清洗数据，导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据。
2 增大数据的训练量，之前用于训练的数据量太小导致的，训练数据占总数据的比例过小。

3 采用正则化方法。正则化方法包括 L0正则、L1正则和L2正则，而正则一般是在目标函数之后加上对于的范数。但是在机器学习中一般使用L2正则，下面看具体的原因。

L0 范数是指向量中非0的元素的个数，
L1 范数是指向量中各个元素绝对值之和，也叫“稀疏规则算子”（Lasso regularization）。
两者都可以实现稀疏性，既然L0可以实现稀疏，为什么不用L0，而要用L1呢？个人理解一是因为L0范数很难优化求解（NP难问题），两者都可以实现稀疏性，既然L0可以实现稀疏，为什么不用L0，而要用L1呢？个人理解一是因为L0范数很难优化求解（NP难问题），二是L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。
L2 范数是指向量各元素的平方和然后求平方根。
可以使得W的每个元素都很小，都接近于0，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0。L2正则项起到使得参数w变小加剧的效果，
但是为什么可以防止过拟合呢？一个通俗的理解便是：更小的参数值w意味着模型的复杂度更低，对训练数据的拟合刚刚好（奥卡姆剃刀），不会过分拟合训练数据，从而使得不会过拟合，以提高模型的泛化能力。还有就是看到有人说L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题（具体这儿我也不是太理解）。

欠拟合（under-fitting）

欠拟合（under-fitting）是和过拟合相对的现象，可以说是模型的复杂度较低，没法很好的学习到数据背后的规律。就好像开普勒在总结天体运行规律之前，他的老师第谷记录了很多的运行数据，但是都没法用数据去解释天体运行的规律并预测，这就是在天体运行数据上,人们一直处于欠拟合的状态，只知道记录过的过去是这样运行的，但是不知道道理是什么。

欠拟合–解决方法

首先欠拟合就是模型没有很好地捕捉到数据特征，不能够很好地拟合数据。

解决方法：

1 添加其他特征项，模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。
例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。
2 添加多项式特征，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

3 减少正则化参数，正则化的目的是用来防止过拟合的，当模型出现了欠拟合，则需要减少正则化参数。

线性回归

在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。（这反过来又应当由多个相关的因变量预测的多元线性回归区别，而不是一个单一的标量变量。）

在已有数据集上通过构建一个线性的模型来拟合该数据集特征向量的各个分量之间的关系，对于需要预测结果的新数据，我们利用已经拟合好的线性模型来预测其结果。关于线性回归的方法，现在使用得比较广泛的就是梯度下降和最小二乘法；我打算把最小二乘法和梯度下降分两篇博客来写，这篇就来说一说我对线性回归及最小二乘法的理解以及原理实现。

线性模型在二维空间中就是一条直线，在三维空间是一个平面，高维空间的线性模型不好去描述长什么样子；如果这个数据集能够用一个线性模型来拟合它的数据关系，不管是多少维的数据，我们构建线性模型的方法都是通用的。之前看吴恩达机器学习视频，第一节课讲的就是线性回归算法，课程里面提到了一个非常简单的案例：房屋估价系统。房屋估价系统问题就是当知道房屋面积、卧室个数与房屋价格的对应关系之后，在得知一个新的房屋信息后如何得到对应的新房屋价格，如果我们将房屋面积用x1表示，卧室个数用x2表示，即房屋价格h(x)可以被表示为房屋面积与卧室个数的一维线性方程：

在这里插入图片描述
这就是我们所说的线性模型，当然这个案例中只有房屋面积和卧室个数两个特征分量作，现实情况下我们要拟合的模型可能有相当多的特征分量，那么线性模型中对应的权重值θ也会有相同多的数量。为了方便表示我们使用矩阵和向量来表示这些数据：

在这里插入图片描述

向量θ（长度为n）中每一个分量都是估计表达式函数h(x)中一个参数，矩阵X（m*n）表示由数据集中每一个样本的特征向量所组成的矩阵。其实这样一个看起来很简单的式子，它的本质经常就是一个规模极其庞大的线性方程组。如果我们用向量Y（长度为m）来表示数据集的实际值，如果用实际值来建立一个方程组，参数向量θ中的每一个值就是我们要求的未知量；大多数情况下建立的是一个超定方程组（没有确定的解），这个时候我们只能求出超定方程组的最优解。通过建立一个损失函数来衡量估计值和实际之间的误差的大小，我们将最小化损失函数作为一个约束条件来求出参数向量的最优解。

在这里插入图片描述

函数J(θ)即为损失函数，它计算出数据集中每一个样例的估计值和实际值的平方差并求取平均。然后就是我们的最小二乘法登场了，最小二乘法通过数学推导（后面给出证明）可以直接得到一个标准方程，这个标准方程的解就是最优的参数向量。

通过正规方程计算得到最优的参数向量之后，就可以确定线性回归方程了，预测只需要将特征向量代入到回归方程之中，就可以计算出估计值了。

优化方法

监督学习的优化方法=损失函数+对损失函数的优化

损失函数

利用损失函数来衡量，损失函数度量预测值和标准答案的偏差，不同的参数有不同的偏差，所以要通过最小化损失函数，也就是最小化偏差来得到最好的参数。

映射函数： $h_θ(x)h_θ(x)$

损失函数： $J(θ_0,θ_1,...,θ_n)=2m/1∑_{i=1}^m(h_θ(x^{(i)})−y^{(i)})^2$

损失函数的优化

损失函数如右图所示，是一个凸函数，我们的目标是达到最低点，也就是使得损失函数最小。

在这里插入图片描述
求极值的数学思想，对公式求导=0即可得到极值，但是工业上计算量很大，公式很复杂，所以从计算机的角度来讲，求极值是利用梯度下降法。

在这里插入图片描述

① 初始位置选取很重要
② 复梯度方向更新，二维情况下，函数变换最快的方向是斜率方向，多维情况下就成为梯度，梯度表示函数值增大的最快的方向，所以要在负梯度方向上进行迭代。
③ θθ \thetaθ的更新公式如上图，每个参数 $θ_1,θ_2...$ 都是分别更新的.

在这里插入图片描述

学习率：
① 学习率太大，会跳过最低点，可能不收敛

② 学习率太小收敛速度过慢

线性回归的指标

在学习线性回归的时候大多数教程会讲到RMSE，MSE(MAE提到的较少)这两个指标评价模型模型拟合的效果，当然MSE也就是模型的损失函数。

在分类模型中针对不同的数据我们可以用分类的准确度评价谁的模型效果较好，这两者的量纲是一致的，但是在回归中预测不同的实际场景，比如一个预测股市，一个预测房价，比较MSE或者RMSE就不能比较谁好谁坏；所以将预测结果转换为准确度，结果都在[0, 1]之间，针对不同问题的预测准确度，可以比较并来判断此模型更适合预测哪个问题

计算方法

线性回归sklearn参数详解

调用sklearn.linear_model.LinearRegression()所需参数：

fit_intercept : 布尔型参数，表示是否计算该模型截距。可选参数。
normalize : 布尔型参数，若为True，则X在回归前进行归一化。可选参数。默认值为False。
copy_X : 布尔型参数，若为True，则X将被复制；否则将被覆盖。可选参数。默认值为True。
n_jobs : 整型参数，表示用于计算的作业数量；若为-1，则用所有的CPU。可选参数。默认值为1

天份横流

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
线性回归梳理

监督学习（supervised learning）从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最...
复制链接

扫一扫