什么是偏差和方差
我们想要建立一个线性回归模型,可以通过输入中国人身高去预测我们的体重。但是显然我们没有办法把全中国13亿人做一次人口普查,拿到13亿人的身高体重去建立模型。我们能做的就是从13亿中抽1000个样本进行建模,我们对这个抽样的过程重复100遍,就会得到100个1000人的样本集。我们使用线性回归模型估计参数就能得到100个线性回归模型。由于样本抽取具有随机性,我们得到的100个模型不可能参数完全一样,那么这100个模型之间的差异就叫做方差。而偏差则是预测值与真实值之间的差距。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。
偏差与方差和误差之间的关系
偏差度量的是单个模型的学习能力,而方差度量的是同一个模型在不同数据集上的稳定性。误差(包括训练误差,测试误差)=偏差+方差+噪声
训练误差与测试误差之间的联系和区别,如何估计测试误差
训练误差:模型在训练集上的误差。
泛化误差(测试误差):在新样本上的误差。
测试误差=1-测试数据集上的准确率。
岭回归和lasso回归的异同点
相同: 都可以用来解决标准线性回归的过拟合问题。 不同: lasso 可以用来做 feature selection,而 ridge 不行。或者说,lasso 更容易使得权重变为 0,而 ridge 更容易使得权重接近 0。 从贝叶斯角度看,lasso等价于参数 w 的先验概率分布满足拉普拉斯分布,而 ridge等价于参数 w 的先验概率分布满足高斯分布
本文探讨了线性回归中的偏差和方差概念,阐述了它们如何衡量模型的预测准确性与稳定性,并介绍了训练误差、测试误差与岭回归、lasso回归的区别。重点讲解了如何通过样本数量和模型复杂度来平衡这两者,以优化模型泛化能力。
3456

被折叠的 条评论
为什么被折叠?



