线性回归详解及Python实现（利用sklearn）_python搭建线性回归模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_47999197/article/details/136933104

机器学习入门：线性回归详解及Python实现

本文将介绍机器学习中最基础的算法之一——线性回归。我们将深入探讨线性回归的原理，包括模型假设、损失函数和参数估计方法。随后，我们将使用Python和Scikit-learn库实现一个简单的线性回归模型，并使用实例演示其在生成的数据上的应用

模型假设

线性回归模型假设因变量 $y$ 与自变量 $x$ 之间的关系可以用以下线性方程表示：
$y=\beta_0+\beta_1 \cdot X_1+\beta_2 \cdot X_2+\ldots+\beta_n \cdot X_n+\varepsilon$

其中:

$y$ 是因变量 (待预测值)；
$X_1, X_2, \ldots, X_n$ 是自变量 (特征) ;
$\beta_0, \beta_1, \ldots, \beta_n$ 是模型的参数，表示截距和各自变量的系数;
$\varepsilon$ 是误差项，表示模型不能解释的随机噪声。

损失函数

在线性回归中，常用的损失函数是均方误差 ( $MSE$ ) ，它衡量了模型预测值与真实值之间的平方差:
$\operatorname{MSE}=\frac{1}{n} \sum_{i-1}^n\left(y_i-\hat{y}_i\right)^2$

其中 $n$ 是样本数量， $y_i$ 是第 $i$ 个样本的真实值， $\hat{y}_i$ 是模型对第 $i$ 个样本的预测值。

参数估计

线性回归模型的参数估计通常使用最小二乘法（ $O L S$ ）来进行。最小二乘法的目标是最小化损失函数，找到能使损失函数达到最小的参数值

Python实现线性回归

接下来，我们将使用Python和Scikit-learn库实现一个简单的线性回归模型，并在一个示例数据集上进行训练和预测。

# 导入所需库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 创建示例数据集
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型并进行训练
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

# 输出模型参数
print("Intercept:", lin_reg.intercept_)
print("Coefficient:", lin_reg.coef_)

# 在测试集上进行预测
y_pred = lin_reg.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# 可视化训练集和拟合直线
plt.scatter(X_train, y_train, color='blue')
plt.plot(X_train, lin_reg.predict(X_train), color='red')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Linear Regression')
plt.show()