机器学习之加州房价预测(二)

本文详述了在机器学习中创建测试集的重要性,以避免数据窥探偏差,并介绍了如何在房价预测任务中进行分层抽样。通过对数据的深入探索和分析,发现房价与收入中位数、地理位置、人口等因素密切相关。通过相关性分析和可视化,揭示了特征间的关系,如房价与收入中位数的正相关和房价与纬度的微弱负相关。最后,讨论了添加新特征如卧室与房间比率对模型预测的影响。
摘要由CSDN通过智能技术生成

上一部分介绍了软件的安装与配置,这一部分主要是接下来比较重要的部分。
六、创建测试集与训练集
在这一阶段保留部分数据听起来可能有些奇怪。在我们决定要用哪种算法之前,我们应该去了解整体。这是真的,但是你的大脑是一个惊人的模式检测系统,这意味着它容易过度拟合:如果你查看测试集,你可能会无意中发现一些测试数据中的有趣模式,它引导选择特定类型的机器学习模型。当我们使用测试估计泛化错误时设置,我们的估计将过于乐观,于是我们将启动一个系统,将不会表现和预期一样好,这叫做数据窥探偏差。

创建一个测试集是比较简单的,我们只需要随机选择一些例子,一般是数据集的20%,然后把它们放在一边。

由于测试数据是随机选取,因此每次运行这个程序,测试集数据并不相同。要想使每次测试集产生的均相同,只需给定特定的random_state。这一步主要引用的是Scikit-Learn包,这个包可以将数据集分成许多不同的子集。
在这里插入图片描述
设置test_size为0.2,random_state=42。
查看一下测试集的前几行:
在这里插入图片描述
这样我们是采用的随机抽样的方法,但当数据集不够大的时候。采用这种方法有采样偏差的风险。

如果专家告诉你,收入中位

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值