目录
线性回归是一种广泛应用的机器学习算法,旨在通过一条最优的直线,刻画输入特征与目标值之间的线性关系。本文将详细介绍如何使用 scikit-learn 库进行线性回归建模,展示基于梯度下降法的参数优化过程,并分析模型的性能表现。
具体线性回归原理参照:
简单线性回归
案例1:使用 scikit-learn 进行线性回归
在第一个案例中,我们将使用 scikit-learn 的 LinearRegression 模型对糖尿病数据集进行建模。这个数据集包含 10 个特征和一个目标值,描述了糖尿病患者的病情进展情况。
1.数据准备与加载
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
# 加载糖尿病数据集
diabetes = datasets.load_diabetes()
X = diabetes.data # 特征
y = diabetes.target # 目标值
# 可视化某个特征与目标变量之间的关系
plt.scatter(X[:,5], y) # 第 5 个特征与目标值的关系
plt.show()
当然这里我们也可以更换成自己的数据。
2.数据集划分与特征标准化
线性回归对特征的尺度比较敏感,因此我们对特征进行标准化,将数据转换为均值为 0、方差为 1 的分布。
from sklearn.preprocessing import StandardScaler
# 拆分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)
# 特征标准化
std = StandardScaler()
X_train_standard = std.fit_transform(X_train)
X_test_standard = std.transform(X_test)
3.线性回归模型训练
我们使用 LinearRegression 模型训练数据,拟合线性回归模型。

最低0.47元/天 解锁文章
1312

被折叠的 条评论
为什么被折叠?



