爬取链家二手房武汉地区的成交数据,共23292条记录,利用Excel、MySQL、Power BI等工具对影响武汉二手房交易价格的因素进行了分析
分析思路
分析目的
- 武汉哪个区的二手房交易最多?
- 哪种户型的房子最受欢迎?
- 武汉各个区二手房交易的平均价格
- 影响二手房交易价格的因素
- 售价最高和最低的二手房分别是哪套?
数据集概述
1.数据采集
数据来源:武汉链家二手房
采集工具:后羿采集器
2. 数据描述
链家二手房武汉地区的成交数据,共23292条记录,15个字段,分别为:小区名称、户型、建筑面积、朝向、装修情况、成交时间、楼层、有无电梯、建成时间、建筑类型、售价、成交周期、经纪人名字、所在区域、其他信息。
数据清洗及处理
1. 删除重复值
为了保证每条记录的唯一性,避免重复出现的记录影响分析结果,需要检验数据是否有重复行并将重复行删除。通过Excel的删除重复项功能可以快速定位重复数据。
2. 字段处理
由于网页房屋信息中是将多个描述内容作为一条信息,在爬取数据的过程中不可避免的会出现一个字段包含了多条信息的现象,比如在house Information和position Information字段中就包含了诸多信息内容。
为了分析方便,还是需要将其拆分为多个字段并重新命名。利用Excel的分列功能,通过设置分隔符号可以达到拆分行的效果。要注意默认分列后新产生的列会覆盖选定列右侧的列,所以要提前预留空白列位置,防止其他数据被覆盖。