优达（Udacity）-机器学习基础-误差原因

最新推荐文章于 2021-01-14 14:20:45 发布

沐婉清

最新推荐文章于 2021-01-14 14:20:45 发布

阅读量568

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhning12L/article/details/78645900

版权

机器学习专栏收录该内容

24 篇文章 1 订阅

订阅专栏

误差原因

模型预测中，模型可能出现的误差来自两个主要来源：

因模型无法表示基本数据的复杂度而造成的偏差（bias）

数据足够，模型不够复杂（过度简化），欠拟合

因模型对训练它所用的有限数据过度敏感而造成的方差（variance）。

预测结果对于任何给定的测试样本会出现多大的变化
对训练集高度敏感——过拟合（overfitting）

可通过更多的数据进行训练，以降低模型预测结果的方差并提高精度。
如果没有更多的数据可以用于训练，还可以通过限制模型的复杂度来降低方差。

学习曲线

可以利用sklearn中的学习曲线来辨别模型表现的好坏。

引入模块：

from sklearn.model_selection import learning_curve

文档中一个合理的实现：

learning_curve(
        estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)

estimator是我们正在用来预测的模型，例如它可以是GaussianNB()
X和y是特征和目标
cv是交叉验证生成器，例如KFold()
'n_jobs'是平行运算的参数
train_sizes是多少数量的训练数据用来生成曲线

偏差、方差和特征数量

这里写图片描述

特征数较少（如：十个特征中的一两个特征）时会导致：high bias（高偏差）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优达（Udacity）-机器学习基础-误差原因

误差原因模型预测中，模型可能出现的误差来自两个主要来源：因模型无法表示基本数据的复杂度而造成的偏差（bias）数据足够，模型不够复杂（过度简化），欠拟合因模型对训练它所用的有限数据过度敏感而造成的方差（variance）。预测结果对于任何给定的测试样本会出现多大的变化对训练集高度敏感——过拟合（overfitting）可通过更多的数据进行训练，以降低模型预测结果的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。