机器学习-多元线性回归

多元线性回归用于建立多个特征与响应之间的线性关系。它涉及线性假设、方差齐性、正态分布和无多重共线性的确认。虚拟变量用于处理分类数据,而虚拟变量陷阱则需要避免。选择变量的方法包括向前、向后和向前向后选择法。模型训练和预测过程与简单线性回归类似,使用sklearn库的LinearRegression进行操作。
摘要由CSDN通过智能技术生成

多元线性回归

多元线性回归尝试通过一个线性方程来适配观测数据,这个线性方程是在两个以上(包括两个)的特征和响应之间构建的一个关系。多元线性回归的实现步骤和简单线性回归很相似,在评价部分有所不同。你可以用它来找出在预测结果上哪个因素影响力最大,以及不同变量是如何相互关联的。
在这里插入图片描述
前提:想要有一个成功的回归分析,确认这些假定很重要
1、线性:自变量和因变量的关系应该是线性的(也即特征值和预测值是线性相关);
2、保持误差项的方差齐性(常数方差):误差项的分散(方差)必须等同;
3、多元正态分布:多元回归嘉定残差符合正态分布;
4、缺少多重共线性:假设数据有极少甚至没有多重共线性。当特征(或自变量)不是相互独立时,会引发多重共线性。

虚(拟)变量
在多元回归模型中,当遇到数据集是非数值数据类型时,使用分类数据是一个非常有效的方法。
分类数据,是指反映(事物)类别的数据,是离散数据,其数值个数(分类属性)有限(但可能很多)且值之间无序。比如,按性别分为男、女两类。在一个回归模型中,这些分类值可以用虚变量来表示,变量通常去诸如1或0这样的值,来表示肯定类型或否定类型。

虚拟变量陷阱
虚拟变量陷阱是指两个以上(包括两个)变量之间高度相关的情形。简而言之,就是存在一个能够被其他变量预测出的变量。我们据一个存在重复类别(变量)的直观例子:假设我们舍弃男性类别,那么该类别也可以通过女性类别来定义(女性值为0时,表示男性的为1),反之亦然。
解决虚拟变量陷阱的方法是,类别变量减去一:假如有m个类别,那么在模型构建时去m-1个虚拟变量,减去的那个变量可以看作是参照值。

注意
过多的变量可能会降低模型的精确度,尤其是如果存在一些对结果无关的变量,或者存在对其他变量造成很大影响的变量时。这里介绍一些选择合适变量的方法:
1、向前选择法;
2、向后选择法:(也称 向后剔除法 / 向后消元法);
3、向前向后法:即结合了上面说的向前法和向后法,先用向前法筛选一遍,再用向后法筛选一遍,直到最后无论怎么筛选模型变量都不再发生变化,就算结束了。

第1步:数据预处理
1.导入相关库;
2.导入数据集;
3.检查缺失数据;
4.数据分类;
5.有必要的话,编辑虚拟变量并注意避免虚拟变量陷阱;
6.特征缩放我们将用简单线性回归模型的相关库来做。

#导入相关库
import pandas as pd
impo
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值