8.链家数据分析

最新推荐文章于 2021-12-15 10:13:42 发布

Padaz

最新推荐文章于 2021-12-15 10:13:42 发布

阅读量1.7k

点赞数

分类专栏：数据分析文章标签：数据分析机器学习

本文链接：https://blog.csdn.net/weixin_45160152/article/details/119408056

版权

本文详细介绍了如何进行链家数据的分析，包括导入数据库、数据预处理如处理重复值和空值、数据类型转换、户型信息的转换。接着，通过图表对房源的数量和位置分布进行了深入分析。最后，提供了包含完整分析资料的百度云盘链接。

摘要由CSDN通过智能技术生成

链家数据分析

1.导入数据库
2.导入数据
3.数据预处理
4.图表分析
- 4.1 房源数量、位置分布分析
5、资料网盘

1.导入数据库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

2.导入数据

# 读取链家北京租房信息 
file_data = pd.read_csv('./2.code/data/链家北京租房数据.csv') 
file_data.head(10)

#查看表数据类型
file_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8223 entries, 0 to 8222
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   区域       8223 non-null   object
 1   小区名称     8223 non-null   object
 2   户型       8223 non-null   object
 3   面积(㎡)    8223 non-null   object
 4   价格(元/月)  8223 non-null   int64 
dtypes: int64(1), object(4)
memory usage: 321.3+ KB

3.数据预处理

3.1 重复值和空值处理

#检测重复值
file_data.duplicated()

#删除重复值
file_data.drop_duplicates(inplace=True)#就地修改

# 检测缺失值
np.all(pd.notnull(file_data)) #返回True证明没有缺失值

# 删除缺失数据
file_data = file_data.dropna()