Python数据挖掘:线性回归

Python数据挖掘:线性回归

数据挖掘第一周作业
#调用sklearn自带的波士顿房价数据集,进行房价的多元线性回归,然后绘图。
#1. 调入库,from sklearn import dataset (代码里使用函数load_boston)
#2. 这套数据的自变量(13维)、因变量(1维)是分开放的;
#3.只需要抽取少量数据,拿来训练和绘制就可以了。

文件链接:https://download.csdn.net/download/weixin_44382897/12281304

详细代码及解释

#获取数据,sklearn中自带一些常用的数据集,用于回归分析的波士顿放假数据集(BODTON)
#首先调用shape()等对数据集的基本情况进行查看。
from sklearn import datasets
from numpy import shape
loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target
print(shape(data_X))
print(shape(data_y))
print(data_X[:2, :])
print(data_y[:2])
#根据以上的输出结果(506, 13) (506,)
#说明该数据集包括506个样本,每个样本有13个特征值,标签值为放假,同时输出了前两个样本的具体情况

#以下是划分数据集合测试机,我们将20%的样本划分为测试集,80%为训练集,即test_size=0.2,同样调用shape来查看划分结果
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data_X, data_y, test_size=0.2)
print(shape(X_train))
print(shape(X_test))


#运行线性模型,我们选用sklearn中基于最小二乘的线性回归模型,并用训练集进行拟合,得到拟合直线y=wTx+b的权重参数w和b
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
print (model.coef_)
print (model.intercept_)

#模型测试。利用测试机得到对应的结果,并利用均方根误差(MSE)对测试结果进行评价
y_pred = model.predict(X_test)
from sklearn import metrics
print ("MSE:", metrics.mean_squared_error(y_test, y_pred))

#交叉验证,使用10折交叉验证,即cv=10,并求出交叉验证得到MSE值
from sklearn.model_selection import cross_val_predict
predicted = cross_val_predict(model, data_X, data_y, cv=10)
print  ("MSE:", metrics.mean_squared_error(data_y, predicted))

#画图,将实际房价数据与预测数据做出比对,接近中间绿色直线的数据表示预测准确。
import matplotlib.pyplot as plt
plt.scatter(data_y, predicted, color='y', marker='o')
plt.scatter(data_y, data_y,color='g', marker='+')
plt.show()

波士顿房价数据集数据图如下所示:
Python再带房价数据读取结果图
拟合结果图:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值