前言
声明:后期原力计划活动期间的博文都会转入到对应的收费专栏。
博主后续会不断更新该领域的知识:
有需要的小伙伴赶紧订阅吧。
在工作中,相信很多小伙伴都遇到过过拟合的现象,创建了一个可以完美训练样本的机器学习模型,但对于需要预测的样本却给出了非常糟糕的预测!你有没有想过为什么会这样?
本文将基于回归的正则化技术,对过度拟合进行解析,明确如何使用正则化技术避免过度拟合的方式。
每次谈及过拟合,这张图片就会时不时地被拉出来“鞭尸”。如上图所示,刚开始的时候,模型还不能很好地拟合所有数据点,即无法反映数据分布,这时它是欠拟合的。而随着训练次数增多,它慢慢找出了数据的模式,能在尽可能多地拟合数据点的同时反映数据趋势,这时它是一个性能较好的模型。在这基础上,如果我们继续训练,那模型就会进一步挖掘训练数据中的细节和噪声,为了拟合所有数据点“不择手段”,这时它就过拟合了。
换句话说,从左往右看,模型的复杂度逐渐提高,在训练集上的预测错误逐渐减少,但它在测试集上的错误率却呈现一条下凸曲线。
多项式回归与过度拟合
机器学习 (ML) 的重点是训练数据的算法,以便创建一个模型。通过这个模型,我们能够对看不见的数据 (测试数据) 做出正确的预测。例如,如果要创建一个分类器,我们首先要收集训练 ML 算法所需的数据。我们负责找到不同类的最好分辨特征来表示每个类,以便电脑能够辨别不同的类。这些特征将被用来训练 ML 算法。假设我们要建立一个 ML 模型,将图像分类为包含猫咪的以及不包含猫咪的。我们通过使用以下图片来训练数据。
我们要回答的第一个问题是“什么是可以用来区分不同类的最佳特征?”这是机器学习的关键问题所在;因为使用更好的特征可以训练 ML 模型产生更好的预测。让我们试着以这些图像为例,并从中提取一些猫的代表性特征。一些代表性的特征可以是两个黑色的瞳孔以及两只有角度的耳朵。假设我们用某种方法提取了这些特征,并且用上面的图像创建了一个ML 模型。这种模型可以应用于各种猫的图像,因为大多数猫都有以上的那些特点。我们可以使用一些需要预测的数据来测试模型,如下所示。假设测试数据的分类精度为 x%。