机器学习之加州房价预测（二）

最新推荐文章于 2023-04-17 14:35:00 发布

nkuzzh

最新推荐文章于 2023-04-17 14:35:00 发布

阅读量752

点赞数

分类专栏： python 文章标签：房价预测

本文链接：https://blog.csdn.net/weixin_44953795/article/details/102788665

版权

本文详述了在机器学习中创建测试集的重要性，以避免数据窥探偏差，并介绍了如何在房价预测任务中进行分层抽样。通过对数据的深入探索和分析，发现房价与收入中位数、地理位置、人口等因素密切相关。通过相关性分析和可视化，揭示了特征间的关系，如房价与收入中位数的正相关和房价与纬度的微弱负相关。最后，讨论了添加新特征如卧室与房间比率对模型预测的影响。

摘要由CSDN通过智能技术生成

上一部分介绍了软件的安装与配置，这一部分主要是接下来比较重要的部分。
六、创建测试集与训练集
在这一阶段保留部分数据听起来可能有些奇怪。在我们决定要用哪种算法之前，我们应该去了解整体。这是真的，但是你的大脑是一个惊人的模式检测系统，这意味着它容易过度拟合：如果你查看测试集，你可能会无意中发现一些测试数据中的有趣模式，它引导选择特定类型的机器学习模型。当我们使用测试估计泛化错误时设置，我们的估计将过于乐观，于是我们将启动一个系统，将不会表现和预期一样好，这叫做数据窥探偏差。

创建一个测试集是比较简单的，我们只需要随机选择一些例子，一般是数据集的20%，然后把它们放在一边。

由于测试数据是随机选取，因此每次运行这个程序，测试集数据并不相同。要想使每次测试集产生的均相同，只需给定特定的random_state。这一步主要引用的是Scikit-Learn包，这个包可以将数据集分成许多不同的子集。
在这里插入图片描述
设置test_size为0.2，random_state=42。
查看一下测试集的前几行：

这样我们是采用的随机抽样的方法，但当数据集不够大的时候。采用这种方法有采样偏差的风险。