机器学习之加州房价预测(三)

博客讲述了在机器学习任务中如何处理加州房价预测数据。内容包括数据清洗,用Imputer类处理缺失值,以及对文字信息的转换,确保数据适合喂给机器学习算法。
摘要由CSDN通过智能技术生成

这一部分开始进入机器学习的核心。
八、为机器学习算法准备数据
首先让我们返回到一个干净的训练集(通过再次复制strat_train_set),并分离预测值和标签,因为我们不一定要对预测值和目标值应用相同的转换(注意drop()创建了数据的副本,并且不影响strat_train_set)
在这里插入图片描述
数据清洗:
从前面的分析可见,total_bedrooms一项缺失了部分数据。此时你可以:
1.删除缺失数据的项 dropna()
2.删除total_bedrooms这一项特征 drop()
3.设置缺失的数据为特定数值(例如,0、均值或中位数)fillna()
这里我们选择第三种方案,需要计算出训练集的中位数并用来填充训练集总缺失的数据,不要忘记保存这个中位数,在我们之后替代测试集缺失的数据时会用到。
在这里插入图片描述
scikit learn提供了一个方便的类来处理丢失的值:Imputer。以下是如何使用它。首先,需要创建一个Imputer实例,指定要用该属性的中值替换每个属性的缺失值。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值