谁来救救过拟合?透过现象看本质,如何利用正则化方法解决过拟合问题

本文深入探讨了过拟合现象,通过回归示例介绍正则化技术,阐述如何利用正则化避免过拟合,强调模型复杂度与训练效果之间的平衡,以提高预测准确性。
摘要由CSDN通过智能技术生成

前言

声明:后期原力计划活动期间的博文都会转入到对应的收费专栏。

博主后续会不断更新该领域的知识:

人工智能AI实战系列代码全解析

手把手教你ML机器学习算法源码全解析

有需要的小伙伴赶紧订阅吧。

 

在工作中,相信很多小伙伴都遇到过过拟合的现象,创建了一个可以完美训练样本的机器学习模型,但对于需要预测的样本却给出了非常糟糕的预测!你有没有想过为什么会这样?

本文将基于回归的正则化技术,对过度拟合进行解析,明确如何使用正则化技术避免过度拟合的方式。

 

图片

每次谈及过拟合,这张图片就会时不时地被拉出来“鞭尸”。如上图所示,刚开始的时候,模型还不能很好地拟合所有数据点,即无法反映数据分布,这时它是欠拟合的。而随着训练次数增多,它慢慢找出了数据的模式,能在尽可能多地拟合数据点的同时反映数据趋势,这时它是一个性能较好的模型。在这基础上,如果我们继续训练,那模型就会进一步挖掘训练数据中的细节和噪声,为了拟合所有数据点“不择手段”,这时它就过拟合了。

换句话说,从左往右看,模型的复杂度逐渐提高,在训练集上的预测错误逐渐减少,但它在测试集上的错误率却呈现一条下凸曲线。

多项式回归与过度拟合

 

机器学习 (ML) 的重点是训练数据的算法,以便创建一个模型。通过这个模型,我们能够对看不见的数据 (测试数据) 做出正确的预测。例如,如果要创建一个分类器,我们首先要收集训练 ML 算法所需的数据。我们负责找到不同类的最好分辨特征来表示每个类,以便电脑能够辨别不同的类。这些特征将被用来训练 ML 算法。假设我们要建立一个 ML 模型,将图像分类为包含猫咪的以及不包含猫咪的。我们通过使用以下图片来训练数据。

图片

我们要回答的第一个问题是“什么是可以用来区分不同类的最佳特征?”这是机器学习的关键问题所在;因为使用更好的特征可以训练 ML 模型产生更好的预测。让我们试着以这些图像为例,并从中提取一些猫的代表性特征。一些代表性的特征可以是两个黑色的瞳孔以及两只有角度的耳朵。假设我们用某种方法提取了这些特征,并且用上面的图像创建了一个ML 模型。这种模型可以应用于各种猫的图像,因为大多数猫都有以上的那些特点。我们可以使用一些需要预测的数据来测试模型,如下所示。假设测试数据的分类精度为 x%。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值