sklearn线性回归例子(糖尿病数据集的某个特征为例)

这篇博客通过糖尿病数据集的第一个特征展示了sklearn线性回归的应用。文中用二维图解释了线性回归如何寻找最佳拟合直线,以最小化残差平方和,并给出了模型的系数、残差平方和及决定系数,结果显示决定系数为0.47。
摘要由CSDN通过智能技术生成

使用糖尿病数据集的第一个特征,以说明二维图中的数据点。
在这里插入图片描述
图中显示了线性回归如何尝试绘制一条直线,最小化数据集中观察到的结果与线性近似预测的结果之间的残差平方和。
还计算了线性模型的系数、残差平方和和决定系数。

输出:Coefficients:
[938.23786125]
Mean squared error: 2548.07
Coefficient of determination: 0.47

import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)  # 如果return_X_y为 True,则(数据、目标)将是 pandas DataFrames 或 Series。 diabetes_X为一个ndarray,一共442行10列,diabetes_y为一个ndarray,共442行一列
# 只用一个属性,442行1列,__len__为2,取第三列的数据,该列对应第一个特征
diabetes_X = diabetes_X[:, np.newaxis, 2]  # 经过测试,不加np.newaxis也可以:diabetes_X = diabetes_X[:, 2]
# 分为训练集和测试集
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]
diabetes_y_train = diabetes_y[:-20]
diabetes_y_test = diabetes_y[-20:]
# 创建(线性回归)对象
regr = linear_model.LinearRegression()
regr.fit(diabetes_X_train, diabetes_y_train)  # 训练
# 使用测试集预测
diabetes_y_pred = regr.predict(diabetes_X_test)
# 打印系数
print('Coefficients: \n', regr.coef_)
# 打印均方差,模型预测数据在后
print('Mean squared error: %.2f'
      % mean_squared_error(diabetes_y_test, diabetes_y_pred))

# 决定系数1为完美预测,,模型预测数据在后
print('Coefficient of determination:%.2f'
      % r2_score(diabetes_y_test, diabetes_y_pred))
# 画散点图
plt.scatter(diabetes_X_test, diabetes_y_test, color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值