链家二手房销售数据分析

最新推荐文章于 2025-03-10 12:20:43 发布

芬晓晓

最新推荐文章于 2025-03-10 12:20:43 发布

阅读量6.4k

点赞数 10

文章标签：数据分析可视化 python

本文链接：https://blog.csdn.net/weixin_45856686/article/details/104988908

版权

本文基于链家二手房销售数据进行深入分析，包括数据清洗、数据可视化和特征探究。数据涉及3.8W条记录，30个字段，涵盖成交价、成交时间、地理位置等多个维度。在数据清洗过程中，处理了异常值、缺失值，例如将不规范的“车位”数据删除，用平均值填充“成交价”中的“451-460”类型数据。在可视化分析中，发现建筑面积与成交价格呈正相关，西城区房价最高，平均每平米达11万。此外，精装修房源的平均单价最高，中小户型房源最受欢迎。成交量随时间上升，房价整体呈现上升趋势，2019年尤其明显。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

一、数据集描述

数据集名称：链家二手房销售数据
数据来源：链家官方网站
数据集简介：此数据集是爬取的链家网北京市地区的二手房源销售信息数据，此数据集包含一张数据表lianjia
数据集量：3.8W条，30个字段
字段名称：成交价（万）、成交时间、所在小区、户型、建筑面积、挂牌价格（万）、成交周期（天）、调价（次）、带看（次）、关注（人）、浏览（次）、链家编号、交易权属、挂牌时间、房屋用途、房屋年限、房权所属、房屋户型、所在楼层、户型结构、套内面积（㎡）、建筑类型、房屋朝向、建成年代、装修情况、建筑结构、供暖方式、梯户比例、产权年限、配备电梯

二、数据清洗
首先导入数据分析python库，导入要使用的科学计算包numpy，pandas可视化matplotlib，seaborn包且检查python版本
在这里插入图片描述采用matplotlib作图时默认设置下是无法显示中文的，凡是汉字全部会显示成小方块这里更改设置，以便作图时能正常显示中文
排除警告，然后导入数据且显示前5行数据，并进行初步数据观察
查看一下整体的数据情况
在这里插入图片描述由以上可以观察到按照分段组织起来的分区数据，不能直接看到每条数据是属于哪个区，需要将数据整理成每条记录都能直接看到所属的分区，以方便后续的数据处理和分析查看大区字段中含有的字符数据，查看可知，大区字段含有如“1125-1148”、“470”、“朝阳”等类型的数据，将“1125-1148”、“470”类型的数据替换成nan，替换成功了之后，由于大区字段总共只有14个大区的名称，说明大区字段总共只有14个非nan的值
在这里插入图片描述删除像 “大兴 nan nan nan nan " 这种类似的行调整字段顺序，把大区字段放在到最前面来研究数据，进行预处理，包括了解数据特征的缺失值，异常值发现数据集一共有38379条数据，其中最后两个字段xx1,xx2有明显的缺失值，所以这两个字段要着重看下到底是什么原因造成的，把这两个字段都去重一下，看看都有哪些值。在这里插入图片描述既然xx2这个字段的值有一部分是“有”、“无”这种值，但是这种值本身应该是配备电梯这个字段的值，xx1和xx2字段产生的原因是这些行中的数据在按照\t作为分隔符解析的时候，多解析出来了个两个字段，这就造成原本是配备电梯字段值的就变成xx2字段的值了，