偏差与方差

本文探讨了线性回归中的偏差和方差概念,阐述了它们如何衡量模型的预测准确性与稳定性,并介绍了训练误差、测试误差与岭回归、lasso回归的区别。重点讲解了如何通过样本数量和模型复杂度来平衡这两者,以优化模型泛化能力。

什么是偏差和方差

我们想要建立一个线性回归模型,可以通过输入中国人身高去预测我们的体重。但是显然我们没有办法把全中国13亿人做一次人口普查,拿到13亿人的身高体重去建立模型。我们能做的就是从13亿中抽1000个样本进行建模,我们对这个抽样的过程重复100遍,就会得到100个1000人的样本集。我们使用线性回归模型估计参数就能得到100个线性回归模型。由于样本抽取具有随机性,我们得到的100个模型不可能参数完全一样,那么这100个模型之间的差异就叫做方差。而偏差则是预测值与真实值之间的差距。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。

偏差与方差和误差之间的关系

偏差度量的是单个模型的学习能力,而方差度量的是同一个模型在不同数据集上的稳定性。误差(包括训练误差,测试误差)=偏差+方差+噪声

训练误差与测试误差之间的联系和区别,如何估计测试误差

训练误差:模型在训练集上的误差。
泛化误差(测试误差):在新样本上的误差。
测试误差=1-测试数据集上的准确率。

岭回归和lasso回归的异同点

相同: 都可以用来解决标准线性回归的过拟合问题。 不同: lasso 可以用来做 feature selection,而 ridge 不行。或者说,lasso 更容易使得权重变为 0,而 ridge 更容易使得权重接近 0。 从贝叶斯角度看,lasso等价于参数 w 的先验概率分布满足拉普拉斯分布,而 ridge等价于参数 w 的先验概率分布满足高斯分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝净云

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值