机器学习初级篇3——拟合问题与正则化问题的理解

本文介绍了机器学习中的拟合问题,包括过拟合和欠拟合,以及它们的直观解释。过拟合因模型复杂度过高、训练数据不足等原因导致,可通过L1/L2正则化、数据增强、dropout和早期停止等方法缓解。正则化中的L1正则化能实现特征选择,L2正则化有助于构建抗扰动能力强的模型。
摘要由CSDN通过智能技术生成

拟合与正则化问题的理解

一.几个基本的概念

在这里插入图片描述
对机器学习模型而言,最糟糕的两种情况无非是构建无用的知识体系,或是从训练数据集中一无所获。在机器学习理论中,这两种现象分别被称为过拟合和欠拟合。如图中,则是我们理想的模型曲线。

1.过拟合:过拟合(overfitting),也叫高方差(variance)。

过拟合是指过分依赖训练数据。具体的过拟合是指学习的模型包含的参数太多,以至于出现对已知数据预测的很好,但对未知数据预测的很差的现象;模型过拟合等价于模型泛化能力差,如图右1。一个过拟合的模型具有高方差和低偏差。

2.欠拟合: 欠拟合(underfitting),或者叫作叫做高偏差(bias)。

欠拟合是指未能学习训练数据中的关系。在训练数据中,被提取的特征比较少,导致训练出来的模型不能很好地匹配,表现得很差。如图左1所示。欠拟合意味着低方差和高偏差。

3.泛化性:泛化是指一个假设模型能够应用到新样本的能力。
4.高偏差与高方差

偏差是指我们忽略了多少数据,而方差是指我们的模型对数据的依赖程度。

高偏差:说如果用线性回归这个算法去拟合训练数据,那么该算法实际上会产生一个非常大的偏差或者说存在一个很强的偏见。
高方差:如果我们拟合一个高阶多项式,那么这个函数能很好的拟合训练集(能拟合几乎所有的训练数据),但这也就面临函数可能太过庞大的问题,变量太多。

偏差:是指一个模型的在不同训练集上的平均性能和最优模型的差异。偏差可以用来衡量一个模型的拟合能力。偏差越大,预测值平均性能越偏离最优模型。偏差衡量模型的预测能力,对象是一个在不同训练集上模型,形容这个模型平均性能对最优模型的预测能力。

方差:( variance)描述的是 一个模型在不同训练集上的差异,描述的是一个模型在不同训练集之间的差异,表示模型的泛化能力,方差越小,模型的泛化能力越强。可以用来衡量一个模型是否容易过拟合。
预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,预测结果数据的分布越散。方差用于衡量一个模型在不同训练集之间的关系,和最优模型无关。对象是不同训练集上的一个模型,表示选取不同的训练集,得出的模型之间的差异性。

记住:方差和偏差都

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值