机器学习实战--8.预测数值型数据：线性回归

最新推荐文章于 2020-09-06 03:43:31 发布

大数据知识搬运工

最新推荐文章于 2020-09-06 03:43:31 发布

阅读量673

点赞数

分类专栏：机器学习实战文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44931681/article/details/106082131

版权

机器学习实战专栏收录该内容

7 篇文章 0 订阅

订阅专栏

8.1 利用线性回归找到最佳拟合曲线

1. 线性回归优缺点
优点：结果易于理解，计算上不复杂
缺点：对非线性数据拟合不好
适用数据类型：数值型和标称型数据。
目的：预测数值型的目标值
2.回归方程、回归系数
回归：求回归系数的过程就叫回归。
在这里插入图片描述比较模型效果：计算两个序列的相关系数–可以计算预测值序列和真实序列的匹配程度。

8.2 局部加权线性回归

线性回归不足：可能出现欠拟合，因为求的是最小均方误差的无偏估计。
解决：在估计中引入一些偏差，从而降低预测的均方误差，其中一个是局部加权线性回归（LWLR）。
1.局部加权线性回归（LWLR）
**算法思想：**给待预测点附近的每个点赋予一定的权重，在这个子集上基于最小均方差进行普通的回归。与KNN一眼，该算法每次预测均需要事先选取出对应的数据子集。
在这里插入图片描述构建了一个只含对角元素的权重矩阵w，并且x与x(i)越近，w(i,j)将会越大.k需用户指定，它决定了对附近的点赋予多大的权重，也是LWLR唯一需要考虑的参数。
使用较小的核将得到较低的误差，但容易造成过拟合。
2.局部加权线性回归不足
增加了计算量，它对每个点做预测时都必须使用整个数据集

8.4 缩减系数来“理解”数据

特征比样本点多的情况，输入数据的矩阵X不是满秩矩阵，求逆会出错，解决办法？

8.4.1 岭回归

在这里插入图片描述
岭回归可用于处理特征数多于样本数的情况；在估计中加入偏差，得到更好的估计。
**缩减（shrinkage)😗*通过引入蓝么大限制所有w之和，通过引入该惩罚项，减少不重要的参数。

8.4.2 缩减方法–lasso

岭回归在线性回归的基础上，加了如下约束：
在这里插入图片描述
**该约束的作用是：**限定所有回归系数的平方不大于蓝么大。普通的最小二乘法回归在两个或更多的特征相关时，可能会得出一个很大的正系数和一个很大的负系数，上述约束使得岭回归可以避免。
缩减方法–lasso的约束
在这里插入图片描述
不同点在于：将平方变为绝对值。
优点：当蓝么大足够小的时候，一些系数被迫缩减为0，可以更好的理解数据。
缺点：增加计算复杂度

8.4.3 前向逐步回归

贪心算法，即每一步都尽可能减少误差。一开始所有的权重设为1，然后每一步所做的决策都是对某个权重增加或减少一个很小的值。
在这里插入图片描述优点：帮助理解现有模型并作出改进。构建一个模型后，运行该算法找出重要的特征，这样有可能及时停止那些不重要特征的收集。
应用缩减方式时，模型增加了偏差，减小了方差。

8.7 小结

分类是预测连续型变量，回归预测离散型变量。
回归方程中，求特征对应的最佳回归系数的方法是最小化误差的平方和。
**判断回归方程好坏：**预测值yHat和原始值y的相关性来度量回归方程的好坏。
样本数比特征数少的时候(不可逆）：缩减方法-岭回归，lasso, 前向逐步回归
缩减法是对一个模型增加偏差减少方差的方法。