这一部分开始进入机器学习的核心。
八、为机器学习算法准备数据
首先让我们返回到一个干净的训练集(通过再次复制strat_train_set),并分离预测值和标签,因为我们不一定要对预测值和目标值应用相同的转换(注意drop()创建了数据的副本,并且不影响strat_train_set)
数据清洗:
从前面的分析可见,total_bedrooms一项缺失了部分数据。此时你可以:
1.删除缺失数据的项 dropna()
2.删除total_bedrooms这一项特征 drop()
3.设置缺失的数据为特定数值(例如,0、均值或中位数)fillna()
这里我们选择第三种方案,需要计算出训练集的中位数并用来填充训练集总缺失的数据,不要忘记保存这个中位数,在我们之后替代测试集缺失的数据时会用到。
scikit learn提供了一个方便的类来处理丢失的值:Imputer。以下是如何使用它。首先,需要创建一个Imputer实例,指定要用该属性的中值替换每个属性的缺失值。
机器学习之加州房价预测(三)
最新推荐文章于 2024-06-19 21:01:34 发布
博客讲述了在机器学习任务中如何处理加州房价预测数据。内容包括数据清洗,用Imputer类处理缺失值,以及对文字信息的转换,确保数据适合喂给机器学习算法。
摘要由CSDN通过智能技术生成