谁来救救过拟合？透过现象看本质，如何利用正则化方法解决过拟合问题

本文深入探讨了过拟合现象，通过回归示例介绍正则化技术，阐述如何利用正则化避免过拟合，强调模型复杂度与训练效果之间的平衡，以提高预测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

声明：后期原力计划活动期间的博文都会转入到对应的收费专栏。

博主后续会不断更新该领域的知识：

人工智能AI实战系列代码全解析

手把手教你ML机器学习算法源码全解析

有需要的小伙伴赶紧订阅吧。

在工作中，相信很多小伙伴都遇到过过拟合的现象，创建了一个可以完美训练样本的机器学习模型，但对于需要预测的样本却给出了非常糟糕的预测！你有没有想过为什么会这样？

本文将基于回归的正则化技术，对过度拟合进行解析，明确如何使用正则化技术避免过度拟合的方式。

每次谈及过拟合，这张图片就会时不时地被拉出来“鞭尸”。如上图所示，刚开始的时候，模型还不能很好地拟合所有数据点，即无法反映数据分布，这时它是欠拟合的。而随着训练次数增多，它慢慢找出了数据的模式，能在尽可能多地拟合数据点的同时反映数据趋势，这时它是一个性能较好的模型。在这基础上，如果我们继续训练，那模型就会进一步挖掘训练数据中的细节和噪声，为了拟合所有数据点“不择手段”，这时它就过拟合了。

换句话说，从左往右看，模型的复杂度逐渐提高，在训练集上的预测错误逐渐减少，但它在测试集上的错误率却呈现一条下凸曲线。

多项式回归与过度拟合

机器学习 (ML) 的重点是训练数据的算法，以便创建一个模型。通过这个模型，我们能够对看不见的数据 (测试数据) 做出正确的预测。例如，如果要创建一个分类器，我们首先要收集训练 ML 算法所需的数据。我们负责找到不同类的最好分辨特征来表示每个类，以便电脑能够辨别不同的类。这些特征将被用来训练 ML 算法。假设我们要建立一个 ML 模型，将图像分类为包含猫咪的以及不包含猫咪的。我们通过使用以下图片来训练数据。

我们要回答的第一个问题是“什么是可以用来区分不同类的最佳特征？”这是机器学习的关键问题所在；因为使用更好的特征可以训练 ML 模型产生更好的预测。让我们试着以这些图像为例，并从中提取一些猫的代表性特征。一些代表性的特征可以是两个黑色的瞳孔以及两只有角度的耳朵。假设我们用某种方法提取了这些特征，并且用上面的图像创建了一个ML 模型。这种模型可以应用于各种猫的图像，因为大多数猫都有以上的那些特点。我们可以使用一些需要预测的数据来测试模型，如下所示。假设测试数据的分类精度为 x%。