数据分析实战----北京租房数据统计分析

最新推荐文章于 2025-02-15 10:10:26 发布

钰涵雨辰

最新推荐文章于 2025-02-15 10:10:26 发布

阅读量9.4k

点赞数 9

分类专栏：数据分析挖掘文章标签：数据分析 python pandas

本文链接：https://blog.csdn.net/weixin_52733693/article/details/127932548

版权

2.1 数据分析实战----北京租房数据统计分析

学习目标

掌握 Pandas的读写操作
会使用预处理技术过滤数据。
会使用 Matplotlib库绘制各种图表。
会基于数据进行独立分析。

近年来随着经济的快速发展，一线城市的资源和就业机会吸引了很多外来人口，使其逐渐成为人口密集的城市之一。据统计，2017年北京市常住外来人口已经达到了2170.7万人，其中绝大多数人是以租房的形式解决居住问题。

本文将租房网站上北京地区的租房数据作为参考，运用前面所学到的数据分析知识，带领大家一起来分析真实数据，并以图表的形式得到以下统计指标：

(1)统计每个区域的房源总数量，并使柱状图分析房源位置分布情况。
(2)使用条形图分析哪种户型的数量最多、更受欢迎。
(3)统计每个区域的平均租金，并结合柱状图和折线图分析各区域的房源数量和租金情况。
(4)统计面积区间的市场占有率，并使用饼图绘制各区间所占的比例。

1 数据基本介绍

目前网络上有很多的租房平台，比如自如、爱屋吉屋、房天下、链家等，其中，链家是目前市场占有率最高的公司，通过链家平台可以便捷且全面地提供可靠的房源信息。

通过网络爬虫技术，爬取链家网站中列出的租房信息(爬取结束时间为2018年9月10日)，具体包括所属区域、小区名称、房屋、价格、房屋面积、户型。需要说明的是，链家官网上并没有提供平谷、怀柔、密云、延庆等偏远地区的租房数据，所以本案例的分析不会涉及这四个地区。

将爬到的数据下载到本地，并保存在“链家北京租房数据.csv”文件中，打开该文件后可以看到里面有很多条（本案例爬取的数据共计8224条)信息，具体如下图所示。

2 数据读取

准备好数据后，我们便可以使用 Pandas读取保存在CSV文件的数据，并将其转换成DataFrame对象展示，便于后续操作这些数据。

首先，读取数据：

import pandas as pd
import numpy as np

# 读取链家北京租房信息
file_data = pd.read_csv('./data/1.csv')
file_data.head()

读取效果如下：

3 数据预处理

尽管从链家官网上直接爬取下来的数据大部分是比较规整的，但或多或少还是会存在一些问题，不能直接用做数据分析。为此，在使用前需要对这些数据进行一系列的检测与处理，包括处理重复值和缺失值、统一数据类型等，以保证数据具有更高的可用性。

3.1重复值和空值处理

预处理的前两步就是检查缺失值和重复值。如果希望检查准备的数据中是否存在重复的数据，则可以通过 Pandas中的 duplicated()方法完成。接下来，通过 duplicated()方法对北京租房数据进行检测，只要有重复的数据就会映射为True，具体代码如下。

# 重复数据检测
file_data.duplicated()

由于数据量相对较多，所以在 Jupyter NoteBook工具中有一部分数据会省略显示，但是从输出结果中仍然可以看到有多条返回结果为True的数据，这表明有重复的数据。这里，处理重复数据的方式是将其删除。接下来，使用 drop_duplicates()方法直接删除重复的数据，具体代码如下。

# 删除重复数据
file_data = file_data.drop_duplicates()

与上一次输出的行数相比，可以很明显地看到减少了很多条数据，只剩下了5773条数据。

对数据重复检测完成之后，便可以检测数据中是否存在缺失值，我们可以直接使用 dropna()方法检测并删除缺失的数据，具体代码如下。

# 删除缺失数据
file_data = file_data.dropna()

经过缺失数据检测之后，可以发现当前数据的总行数与之前相比没有发生任何变化。因此我们断定准备好的数据中并不存在缺失的数据。

3.2 数据转换类型

在这套租房数据中，“面积( $m^2$ )”一列的数据里面有中文字符，说明这一列数据都是字符串类型的。为了方便后续对面积数据进行数学运算，所以需要将“面积(m)”一列的数据类型转换为float类型，具体代码如下。

# 创建一个全是0的数组
data_new = np.zeros(file_data.shape[0])
# 取出“面积”一列数据，将每个数据末尾的中文字符去除  fild_data.info()

data_area = file_data["面积(㎡)"].values

for i,value in enumerate(data_area):
    data_new[i] = np.array(value[:-2],dtype=np.float64)
# 用新的数据替换
file_data.loc[:,'面积(㎡)']= data_new

数据类型转换1

除此之外，在“户型”一列中，大部分数据显示的是“室*厅”，只有个别数据显示的是"*房间*卫”(比如索引8219对应的一行)。为了方便后期的使用，需要将“房间"替换成"室"，以保证数据的一致性。

接下来，使用 Pandas的 replace(）方法完成替换数据的操作，具体代码如下。

# 获取“户型”一列数据
housetype_data = file_data['户型']
temp_list = []
# 通过replace()方法进行替换
for i in housetype_data:
    new_info = i.replace('房间','室')
    temp_list

最低0.47元/天解锁文章