欠拟合和过拟合

最新推荐文章于 2023-07-19 01:06:17 发布

adamyoungjack

最新推荐文章于 2023-07-19 01:06:17 发布

阅读量250

点赞数

分类专栏：人工智能 # 机器学习文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/weixin_46072106/article/details/112114440

版权

23 篇文章 1 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

1. 简介

以线性回归为例

import numpy as np
import matplotlib.pyplot as plt

# 设置随机种子，使得随机的数都一样（可以不设）
np.random.seed(666)

# 1. 获取特征值
x = np.random.uniform(-3, 3, size = 100)
x

# 2. 获取目标值
# 定义表达式, 加了扰动,
# normal：表示正态分布上的点
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, size = 100)
y

# 3. 画出图像
plt.scatter(x, y)
plt.show()

# 1.. 特征值转化为二维
X = x.reshape(-1, 1)
X

# 2. 模型选择
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model

# 3. 模型训练
model.fit(X, y)

# 4. 模型系数
model.coef_

# 5. 模型截距
model.intercept_

# 6. 模型预测
y_predict = model.predict(X) 
y_predict

# 7. 画出模型预测值和真实值
plt.scatter(x, y)
plt.plot(x, y_predict, color = 'r')
plt.show()

# 8. 模型评估
from sklearn.metrics import mean_squared_error
error = mean_squared_error(y, y_predict)
error

# 1. 获取新的特征
X2 = np.hstack([X, X ** 2])
X2

# 2. 模型选择
model2 = LinearRegression()
model2

# 3. 模型训练
model2.fit(X2, y)

# 4. 模型系数
model2.coef_

# 5. 模型截距
model2.intercept_

# 6. 模型预测
y_predict2 = model2.predict(X2)
y_predict2

# 7. 画出图形，观察模型真实值和预测值
plt.scatter(x, y)
plt.plot(np.sort(x), y_predict2[np.argsort(x)], color = 'r')
plt.show()

# 1. 再次构建特征值，加入高次项
X3 = np.hstack([X2, X**3, X**4, X**5, X**6, X**7, X**8, X**9,X**10])
X3

# 2. 模型选择
model3 = LinearRegression()
model3

# 3. 模型训练
model3.fit(X3, y)

# 4. 模型系数
model3.coef_

# 5. 模型截距
model3.intercept_

# 6. 模型预测
y_predict3 = model3.predict(X3)
y_predict3

# 7. 画出预测值和真实值关系
plt.scatter(x, y)
plt.plot(np.sort(x), y_predict3[np.argsort(x)], color = 'r')
plt.show()

# 8. 模型评估
error = mean_squared_error(y, y_predict3)
error

# 1. 训练集和测试集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state =10)

# 2. 模型选择
model = LinearRegression()
model

# 3. 模型训练
model.fit(X_train, y_train)

# 4. 模型系数
model.coef_

# 5. 模型截距
model.intercept_

# 6. 模型预测
y_predict = model.predict(X_test)
y_predict

# 7. 模型评估
error = mean_squared_error(y_test, y_predict)
error

# 1. 训练集合测试集划分
X_train, X_test, y_train, y_test = train_test_split(X2, y, random_state = 10)

# 2. 模型选择
model2 = LinearRegression()
model2

# 3. 模型训练
model2.fit(X_train, y_train)

# 4. 模型系数
model2.coef_

# 5. 模型截距
model2.intercept_

# 6. 模型预测
y_predict2 = model2.predict(X_test)
y_predict2

# 7. 模型评估
error = mean_squared_error(y_test, y_predict2)
error

# 1. 训练集和测试集划分
X_train, X_test, y_train, y_test = train_test_split(X3, y, random_state = 10)

# 2. 模型选择
model3 = LinearRegression()
model3

# 3. 模型训练
model3.fit(X_train, y_train)

# 4. 模型系数
model3.coef_

`# 5. 模型截距
model3.intercept_

# 6. 模型预测
y_predict3 = model3.predict(X_test)
y_predict3

# 7. 模型评估
error = mean_squared_error(y_test, y_predict3)
error

欠拟合和过拟合区别