简单数据清洗和预处理(源码附后)

下次的文章会分享toB端产品经理的内容,数据分析的内容会放到周末发,作为一个产品岗的人老是发数据分析确实有点离谱。

这一章主要说的是数据的清洗步骤,过程比较简单,没有用到插值法,各位凑合欣赏

1.数据初步缺失值处理

a.先进行数据源的检索如图

b.统计列缺失值,行缺失值如图

c.检查并删除房屋名称,地址,户型面积三列缺失值所在的行,因为这三列的缺失值无法填补,因为周边均价和均价意义一致,所以将周边均价一列插入到价格一列,再将价格一列的缺失值所在的行删除。

c=df.isnull().sum(axis=1)#查看缺失值

print(c)

d=df.isnull().sum(axis=0)

print(d)

df=df.dropna(subset=['房屋名称','地址','户型面积'])#删除此列缺失值行

df=df.fillna(axis=1,method='backfill')#将周边均价插入到价格中

df=df.dropna(subset=['价格'])#删除价格的缺失值

2.文本去重

检索第一列的重复的名称,进行去重

data = df.drop_duplicates(subset=['房屋名称'], keep='first', inplace=False)

3.删除最后一列

留下必要的数据,现在数据暂时无缺失、无重复,如图

4.数据分类

因为安居客的房价的计量单位不同,所以进行区分周边均价和均价放在一类,最低放在一类,总价放在一类,分类分析,如图

5.数据变换和提取面积上下限

a.先将数据中不重要的字符串删除,将数据冗余清除,例如房价的“周边均价”、“均价”、计量单位等,这里需要注意将“万”替代成“0000”如图,便于以后的分析,清除后得到如图所示的内容,得到最终清理后的文件。因为房子的面积是一个范围,所以要进行分离面积的上下限。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值