多项式回归与模型泛化

最新推荐文章于 2024-07-24 22:26:34 发布

石中路

最新推荐文章于 2024-07-24 22:26:34 发布

阅读量560

点赞数

分类专栏： MachineLearning Python 文章标签：多项式回归模型泛化岭回归 LASSO回归

本文链接：https://blog.csdn.net/weixin_43682721/article/details/89244296

版权

本文介绍了多项式回归的概念，解释了过拟合和欠拟合的现象，并探讨了训练数据集与测试数据集的重要性。通过学习曲线、验证数据集与交叉验证来分析模型的泛化能力。此外，文章还详细阐述了模型正则化，尤其是岭回归和LASSO回归在防止过拟合中的作用，以及它们之间的区别与联系。

摘要由CSDN通过智能技术生成

什么是多项式回归

多项式回归思路与多元线性回归相似，只是为原来的数据样本添加新的特征，而新的特征是原有特征的多项式组合。在线性回归不能很好的拟合现有数据的情况下，可能对某一特征进行平方、立方之后得到的曲线可以很好地拟合数据，这种回归方式就称为多项式回归。

scikit-learn中的多项式回归与pipeline

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# 模拟数据集
x = np.random.uniform(-2, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

# 为数据集增加特征（原特征只有一个）
poly = PolynomialFeatures(degree=2)
poly.fit(X)
X2 = poly.transform(X)
print(X2.shape)

# 使用线性回归进行预测
lin_reg = LinearRegression()
lin_reg.fit(X2, y)
y_predict = lin_reg.predict(X2)
print(lin_reg.coef_)

# 使用pipeline
poly_reg = Pipeline([
    ('poly', PolynomialFeatures(degree=2)),
    ('std_scaler', StandardScaler()),
    ('lin_reg', LinearRegression())
])

poly_reg.fit(X, y)
y_predict = poly_reg.predict(X)