三、数据分析
分析目的
1、近半年成都二手房整体挂牌量及均价走势如何?
2、目前成都二手房价位、房源有什么特点?
3、成都各区县的挂牌情况,找出抛压最大的区域?
数据清洗
首先查看我爬取的数据,共计23个维度,有些可以进行维度细分,比如:所在楼层、抵押信息、建筑面积等。
在进行数据清洗清洗前使用pandas_profiling对爬取的数据进行快速的统计分析如下:
#代码
import pandas-profiling
pandas_profiling.ProfileReport(data)
从统计分析报告内容可以看出本次爬取数据共计48586行,23列,存在61重复行,重复占比0.1%,报告继续下拉可以看到每一列的统计详情。
缺失数据详情查看:
np.sum(data.isnull())
接下来进行数据清洗:
①去重重复行
data.drop_duplicates(keep='first',inpalce=True)
②删除有空值的行
data.dropna(axis=0,how='any',thresh=<