【数据预处理】爬取房地产的数据并进行数据清洗

本文档详细记录了一位大二学生小易使用Python进行数据爬取,通过Kettle进行数据清洗,包括统计各区域房源数量、房价及类型比例,最后通过可视化展示数据的过程。博客包含爬虫编写、数据清洗步骤及可视化图表展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

你好呀!这里是小易同学的博客,一名大二在校生。
写博客是为了记录自己的学习过程,同时也希望能帮助到需要帮助的人。
如果我的博客可以帮助到你,不妨给我一个关注🥰

文章目录

  • 一、爬取数据
  • 二、用kettle清洗数据
  • 三、可视化


一、爬取数据


1.先在pycharm编写代码爬虫,并得到相应数据


二、用kettle清洗数据


1.统计各个区域的房屋上架数量

Kettle步骤

处理结果

 

2.统计各个区的房价,并统一化为面积单位

Kettle步骤

 处理结果

3.统计各种类型的房屋比例

 Kettle步骤

  处理结果

 


三、可视化

1.用饼状图展示各个区域的房屋上架数量

2.柱状图展示各个区的房价

 

3.饼状图展示各种类型的房屋比例

 

 

### 加利福尼亚房价预测数据清洗代码 对于加利福尼亚房价预测项目中的数据清洗工作,在Python中可以利用Pandas库来处理。下面展示一段用于清理`ocean_proximity`字段将其转换为数值编码形式的代码片段: ```python import pandas as pd # 假设 'housing' 是已经加载好的DataFrame对象 housing_cat = housing['ocean_proximity'] housing_cat_encoded, housing_categories = housing_cat.factorize() print(housing_cat_encoded) ``` 上述代码实现了对分类变量`ocean_proximity`的预处理操作,通过调用factorize方法将字符串类型的类别转化为整数索引表示的形式[^1]。 除了简单的因子化之外,完整的数据清洗流程通常还包括缺失值填充、异常检测以及特征缩放等步骤。这里给出更全面的数据准备过程示例: ```python from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline # 定义数值型列名列表与分类型列名列表 num_attribs = list(housing.select_dtypes(include=['int64', 'float64']).columns) cat_attribs = ["ocean_proximity"] # 创建针对不同类型属性的操作管道 num_pipeline = Pipeline([ ('imputer', SimpleImputer(strategy="median")), # 使用中位数填补缺失值 ('std_scaler', StandardScaler()) # 特征标准化 ]) full_pipeline = ColumnTransformer([ ("num", num_pipeline, num_attribs), ("cat", OneHotEncoder(), cat_attribs) # 对于分类数据采用独热编码 ]) # 应用整个流水线到原始数据集上得到最终可用于建模的新矩阵X housing_prepared = full_pipeline.fit_transform(housing) ``` 这段脚本不仅完成了前面提到过的离散特征编码任务,还加入了其他重要的前处理环节,比如使用SimpleImputer类自动补全可能存在的空白记录;借助StandardScaler组件实现连续维度间的尺度统一;最后通过ColumnTransformer组合不同性质输入源各自的变换逻辑形成一个整体的工作流。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小易同学go

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值