sklearn线性回归例子（糖尿病数据集的某个特征为例）

啦啦啦种太阳！

已于 2022-02-08 17:58:11 修改

阅读量3k

点赞数 4

分类专栏： sklearn 文章标签： python 机器学习

于 2021-07-01 21:14:28 首次发布

原文链接：https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py

版权

sklearn 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

这篇博客通过糖尿病数据集的第一个特征展示了sklearn线性回归的应用。文中用二维图解释了线性回归如何寻找最佳拟合直线，以最小化残差平方和，并给出了模型的系数、残差平方和及决定系数，结果显示决定系数为0.47。

摘要由CSDN通过智能技术生成

使用糖尿病数据集的第一个特征，以说明二维图中的数据点。
在这里插入图片描述
图中显示了线性回归如何尝试绘制一条直线，最小化数据集中观察到的结果与线性近似预测的结果之间的残差平方和。
还计算了线性模型的系数、残差平方和和决定系数。

输出：Coefficients:
[938.23786125]
Mean squared error: 2548.07
Coefficient of determination: 0.47

import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)  # 如果return_X_y为 True，则（数据、目标）将是 pandas DataFrames 或 Series。 diabetes_X为一个ndarray,一共442行10列，diabetes_y为一个ndarray，共442行一列
# 只用一个属性,442行1列，__len__为2，取第三列的数据，该列对应第一个特征
diabetes_X = diabetes_X[:, np.newaxis, 2]  # 经过测试，不加np.newaxis也可以:diabetes_X = diabetes_X[:, 2]
# 分为训练集和测试集
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]
diabetes_y_train = diabetes_y[:-20]
diabetes_y_test = diabetes_y[-20:]
# 创建(线性回归)对象
regr = linear_model.LinearRegression()
regr.fit(diabetes_X_train, diabetes_y_train)  # 训练
# 使用测试集预测
diabetes_y_pred = regr.predict(diabetes_X_test)
# 打印系数
print('Coefficients: \n', regr.coef_)
# 打印均方差，模型预测数据在后
print('Mean squared error: %.2f'
      % mean_squared_error(diabetes_y_test, diabetes_y_pred))

# 决定系数1为完美预测，，模型预测数据在后
print('Coefficient of determination:%.2f'
      % r2_score(diabetes_y_test, diabetes_y_pred))
# 画散点图
plt.scatter(diabetes_X_test, diabetes_y_test, color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()