《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第3章进阶篇学习笔记（三）3.1.2.1欠拟合与过拟合总结

最新推荐文章于 2020-12-10 15:39:09 发布

wyatt007

最新推荐文章于 2020-12-10 15:39:09 发布

阅读量329

点赞数 1

分类专栏： Python机器学习及实践

本文链接：https://blog.csdn.net/wyatt007/article/details/105794137

版权

Python机器学习及实践专栏收录该内容

30 篇文章 20 订阅

订阅专栏

本文是《Python机器学习及实践》第3章的进阶学习笔记，聚焦欠拟合与过拟合。通过线性、2次和4次多项式回归模型，探讨模型复杂度与泛化力的关系。线性回归在训练数据上R-squared值为0.910，2次多项式提升至0.982，而4次多项式在训练数据上完全拟合但可能导致过拟合。正则化方法如范数正则化有助于防止过拟合，平衡模型性能与泛化力。

摘要由CSDN通过智能技术生成

3.1.2.1欠拟合与过拟合

0、引言

任何机器学习模型在训练集上的性能表现，都不能作为其对未知测试数据预测能力的评估。

首先阐述模型复杂度与泛化力的关系；紧接着，分别介绍如何使用 $L_{1}$ 范数正则化与 $L_{2}$ 范数正则化这两种正则化（Regularization）来加强模型的泛化力，避免模型参数过拟合（Overfitting）。

1、拟合

所谓拟合，是指机器学习模型在训练的过程中，通过更新参数，使得模型不断契合可观测数据（训练集）的过程。

2、编程实践

使用一个“比萨饼价格预测“的例子来说明。如表3-1所示，美国一家比萨饼店出售不同尺寸的比萨，其中每种直径都对应一个报价。所要做的，就是设计一个学习模型，可以有效地根据表3-2中比萨的直径特征来预测售价。

表3-1 美国某比萨饼店已知训练数据
Training Instance	Diameter（in inches）	Price（in U.S. dollars）
1	6	7
2	8	9
3	10	13
4	14	17.5
5	18	18

表3-2 美国某比萨饼店未知测试数据
Testing Instance	Diameter（in inches）	Price（in U.S. dollars）
1	6	?
2	8	?
3	11	?
4	16	?

目前所知，共有5组训练数据、4组测试数据，并且其中测试数据的比萨报价未知。

（1）线性回归模型

根据经验，如果只考虑比萨的尺寸与售价的关系，那么使用线性回归模型比较直观。

# 代码60：使用线性回归模型在比萨训练样本上进行拟合
# 输入训练样本的特征以及目标值，分别存储在变量X_train与y_train之中。
X_train = [[6], [8], [10], [14], [18]]
y_train = [[7], [9], [13], [17.5], [18]]

# 从sklearn.linear_model中导入LinearRegression。
from sklearn.linear_model import LinearRegression

# 使用默认配置初始化线性回归模型。
regressor = LinearRegression()
# 直接以披萨的直径作为特征训练模型。
regressor.fit(X_train, y_train)

# 导入numpy并且重命名为np。
import numpy as np

# 在x轴上从0至25均匀采样100个数据点。
xx = np.linspace(0, 26, 100)
xx = xx.reshape(xx.shape[0], 1)
# 以上述100个数据点作为基准，预测回归直线。
yy = regressor.predict(xx)

# 对回归预测到的直线进行作图。
import matplotlib.pyplot as plt

plt.scatter(X_train, y_train)
plt1, = plt.plot(xx, yy, label="Degree=1")
plt.axis([0, 25, 0, 25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')
plt.legend(handles=[plt1])
plt.show()

# 输出线性回归模型在训练样本上的R-squared值。
print('The R-squared value of Linear Regressor performing on the training data is', regressor.score(X_train, y_train))

本地输出：

The R-squared value of Linear Regressor performing on the training data is 0.9100015964240102

结论：根据线性回归模型在训练集上的表现（R-squared值为0.9100），进一步猜测，也许比萨饼的面积与售价的线性关系更加明显。

（2）2次多项式回归模型

试图将原特征升高一个维度，使用（2次）多项式回归（Polynominal Regression）对训练样本进行拟合。

# 代码61：使用2次多项式回归模型在比萨训练样本上进行拟合
# 从sklearn.preproessing中导入多项式特征产生器。
from sklearn.preprocessing import PolynomialFeatures

# 使用PolynominalFeatures(degree=2)映射出2次多项式特征，存储在变量X_train_poly2中。
poly2 = PolynomialFeatures(degree=2)
X_train_poly2 = poly2.fit_transform(X_train)

# 以线性回归器为基础，初始化回归模型。尽管特征的维度有提升，但是模型基础仍然是线性模型。
regressor_poly2 = LinearRegression()

# 对2次多项式回归模型进行训练。
regressor_poly2.fit(X_train_poly2, y_train)

# 从新映射绘图用x轴采样数据。
xx_poly2 = poly2.transform(xx)

# 使用2次多项式回归模型对应x轴采样数据进行回归预测。
yy_poly2 = regressor_poly2.predict(xx_poly2)

# 分别对训练数据点、线性回归直线、2次多项式回归曲线进行作图。
plt.scatter(X_train, y_train)

plt1, = plt.plot(xx, yy, label='Degree=1')
plt2, = plt.plot(xx, yy_poly2, label='Degree=2')

plt.axis([0, 25, 0, 25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')
plt.legend(handles=[plt1, plt2])
plt.show()

# 输出2次多项式回归模型在训练样本上的R-squared值。
print('The R-squared value of Polynominal Regressor (Degree=2) performing on the training data is', regressor_poly2.score(X_train_poly2, y_train))

备注：尽管在上面代码中依然使用线性回归器作为模型基础，但是由于将特征上升到多项式层面，因此通常称这类模型为多项式回归。

本地输出：

The R-squared value of Polynominal Regressor (Degree=2) performing on the training data is 0.9816421639597427

结论：果然，在升高了特征维度之后，2次多项式回归模型在训练样本上的性能表现更加突出，R-squared值从0.910上升到0.982。2次多项式回归曲线（橙色）比起线性回归直线（蓝色），对训练数据的拟合程度增加了许多。

（3）4次多项式回归模型

更加大胆地进一步升高特征维度，增加到4次多项式。

# 代码62：使用4次多项式回归模型在比萨训练样本上进行拟合
# 从sklearn.preprocessing导入多项式特征生成器。
from sklearn.preprocessing import PolynomialFeatures

# 初始化4次多项式特征生成器。
poly4 = PolynomialFeatures(degree=4)
X_train_poly4 = poly4.fit_transform(X_train)

# 使用默认配置初始化4次多项式回归器。
regressor_poly4 = LinearRegression()
# 对4次多项式回归模型进行训练。
regressor_poly4.fit(X_train_poly4, y_train)

# 从新映射绘图用x轴采样数据。
xx_poly4 = poly4.transform(xx)
# 使用4次多项式回归模型对应x轴采样数据进行回归预测。
yy_poly4 = regressor_poly4.predict(xx_poly4)

# 分别对训练数据点、线性回归直线、2次多项式以及4次多项式回归曲线进行作图。
plt.scatter(X_train, y_train)
plt1, = plt.plot(xx, yy, label='Degree=1')
plt2, = plt.plot(xx, yy_poly2, label='Degree=2')

plt4, = plt.plot(xx, yy_poly4, label='Degree=4')
plt.axis([0, 25, 0, 25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')
plt.legend(handles=[plt1, plt2, plt4])
plt.show()

print('The R-squared value of Polynominal Regressor (Degree=4) performing on the training data is', regressor_poly4.score(X_train_poly4, y_train))

本地输出：

The R-squared value of Polynominal Regressor (Degree=4) performing on the training data is 1.0

结论：4次多项式曲线几乎完全拟合了所有的训练数据点，对应的R-squared值也为1.0。

3、性能测评

如果这时觉得已经找到了完美的模型，那么显然是高兴过早了。

表3-3揭示了测试比萨的真实价格。

表3-3 美国某比萨饼店真实测试数据
Testing Instance	Diameter（in inches）	Price（in U.S. dollars）
1	6	8
2	8	12
3	11	15
4	16	18

评估上述3种模型在测试集上的表现，并将输出对比之前在训练数据上的拟合情况，制成表3-4。

# 代码63：评估3种回归模型在测试数据集上的性能表现
# 准备测试数据。
X_test = [[6], [8], [11], [16]]
y_test = [[8], [12], [15], [18]]

# 使用测试数据对线性回归模型的性能进行评估。
regressor.score(X_test, y_test)

# 使用测试数据对2次多项式回归模型的性能进行评估。
X_test_poly2 = poly2.transform(X_test)
regressor_poly2.score(X_test_poly2, y_test)

# 使用测试数据对4次多项式回归模型的性能进行评估。
X_test_poly4 = poly4.transform(X_test)
regressor_poly4.score(X_test_poly4, y_test)

本地输出：

0.809726797707665
0.8675443656345073
0.8095880795766807

表3-4 美国某比萨饼店真实测试数据
特征多项式次数	训练集R-squared值	测试集R-squared值
Degree=1	0.9100	0.8097
Degree=2	0.9816	0.8675
Degree=4	1.0000	0.8096

结论：最终的结果却令人咋舌：当模型复杂度很低时，模型不仅没有对训练集上的数据有良好的拟合状态，而且在测试集上也表现平平，这种情况叫欠拟合（Underfitting）；但是，当一味追求很高的模型复杂度，尽管模型几乎完全拟合了所有的训练数据，但模型也变得非常波动，几乎丧失了对未知数据的预测能力，这种情况叫过拟合（Overfitting）。这两种情况都是缺乏模型泛化力的表现。

4、特点分析

由此可见，虽然不断追求更好的模型泛化力，但是因为未知数据无法预测，所以又期望模型可以充分利用训练数据，避免欠拟合。这就要求在增加模型复杂度、提高在可观测数据上的性能表现的同时，又兼顾模型的泛化力，防止发生过拟合情况。为了平衡这两难的选择，通常采用两种模型正则化的方法，分别是 $L_{1}$ 范数正则化和 $L_{2}$ 范数正则化。