机器学习之加州房价预测（三）

最新推荐文章于 2024-06-19 21:01:34 发布

nkuzzh

最新推荐文章于 2024-06-19 21:01:34 发布

阅读量797

点赞数 1

分类专栏： kaggle python 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44953795/article/details/102804566

版权

博客讲述了在机器学习任务中如何处理加州房价预测数据。内容包括数据清洗，用Imputer类处理缺失值，以及对文字信息的转换，确保数据适合喂给机器学习算法。

摘要由CSDN通过智能技术生成

这一部分开始进入机器学习的核心。
八、为机器学习算法准备数据
首先让我们返回到一个干净的训练集（通过再次复制strat_train_set），并分离预测值和标签，因为我们不一定要对预测值和目标值应用相同的转换（注意drop（）创建了数据的副本，并且不影响strat_train_set）
在这里插入图片描述
数据清洗：
从前面的分析可见，total_bedrooms一项缺失了部分数据。此时你可以：
1.删除缺失数据的项 dropna()
2.删除total_bedrooms这一项特征 drop()
3.设置缺失的数据为特定数值（例如，0、均值或中位数）fillna()
这里我们选择第三种方案，需要计算出训练集的中位数并用来填充训练集总缺失的数据，不要忘记保存这个中位数，在我们之后替代测试集缺失的数据时会用到。
在这里插入图片描述
scikit learn提供了一个方便的类来处理丢失的值：Imputer。以下是如何使用它。首先，需要创建一个Imputer实例，指定要用该属性的中值替换每个属性的缺失值。

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习之加州房价预测（三）

这一部分开始进入机器学习的核心。八、为机器学习算法准备数据首先让我们返回到一个干净的训练集（通过再次复制strat_train_set），并分离预测值和标签，因为我们不一定要对预测值和目标值应用相同的转换（注意drop（）创建了数据的副本，并且不影响strat_train_set）数据清洗：从前面的分析可见，total_bedrooms一项缺失了部分数据。此时你可以：1.删除缺失数据的...
复制链接

扫一扫

专栏目录

目录

分类专栏

python 10篇
notepad++ 1篇
git 1篇
linux 7篇
kaggle 2篇
sam 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。