机器学习实战--8.预测数值型数据:线性回归

8.1 利用线性回归找到最佳拟合曲线

1. 线性回归优缺点
优点:结果易于理解,计算上不复杂
缺点:对非线性数据拟合不好
适用数据类型:数值型和标称型数据
目的:预测数值型的目标值
2.回归方程、回归系数
回归:求回归系数的过程就叫回归。
在这里插入图片描述比较 模型效果:计算两个序列的相关系数–可以计算预测值序列和真实序列的匹配程度。

8.2 局部加权线性回归

线性回归不足:可能出现欠拟合,因为求的是最小均方误差的无偏估计。
解决:在估计中引入一些偏差,从而降低预测的均方误差,其中一个是局部加权线性回归(LWLR)。
1.局部加权线性回归(LWLR)
**算法思想:**给待预测点附近的每个点赋予一定的权重,在这个子集上基于最小均方差进行普通的回归。与KNN一眼,该算法每次预测均需要事先选取出对应的数据子集。
在这里插入图片描述构建了一个只含对角元素的权重矩阵w,并且x与x(i)越近,w(i,j)将会越大.k需用户指定,它决定了对附近的点赋予多大的权重,也是LWLR唯一需要考虑的参数。
使用较小的核将得到较低的误差,但容易造成过拟合。
2.局部加权线性回归不足
增加了计算量,它对每个点做预测时都必须使用整个数据集

8.4 缩减系数来“理解”数据

特征比样本点多的情况,输入数据的矩阵X不是满秩矩阵,求逆会出错,解决办法?

8.4.1 岭回归

在这里插入图片描述
岭回归可用于处理特征数多于样本数的情况;在估计中加入偏差,得到更好的估计。
**缩减(shrinkage)😗*通过引入 蓝么大 限制所有w之和,通过引入该惩罚项,减少不重要的参数。

8.4.2 缩减方法–lasso

岭回归在线性回归的基础上,加了如下约束:
在这里插入图片描述
**该约束的作用是:**限定所有回归系数的平方不大于 蓝么大 。普通的最小二乘法回归在两个或更多的特征相关时,可能会得出一个很大的正系数和一个很大的负系数,上述约束使得岭回归可以避免。
缩减方法–lasso的约束
在这里插入图片描述
不同点在于:将平方变为绝对值。
优点:当 蓝么大 足够小的时候,一些系数被迫缩减为0,可以更好的理解数据。
缺点:增加计算复杂度

8.4.3 前向逐步回归

贪心算法,即每一步都尽可能减少误差。一开始所有的权重设为1,然后每一步所做的决策都是对某个权重增加或减少一个很小的值。
在这里插入图片描述优点:帮助理解现有模型并作出改进。构建一个模型后,运行该算法找出重要的特征,这样有可能及时停止那些不重要特征的收集。
应用缩减方式时,模型增加了偏差,减小了方差。

8.7 小结

分类是预测连续型变量,回归预测离散型变量。
回归方程中,求特征对应的最佳回归系数的方法是最小化误差的平方和。
**判断回归方程好坏:**预测值yHat和原始值y的相关性来度量回归方程的好坏。
样本数比特征数少的时候(不可逆):缩减方法-岭回归,lasso, 前向逐步回归
缩减法是对一个模型增加偏差减少方差的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值