基于Python的数据清洗1

这篇博客介绍了Python数据清洗的一些基本操作,包括使用pd.merge进行表拼接,查看和处理缺失值,值的处理如strip和replace,以及如何删除列和行。还涉及到了时间处理,如将字符串转化为datetime格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      在上班时间,抽空玩了一下Python,对于数据清洗一些经常用到的操作,写了个笔记,也方便自己以后查看,哈哈,或者说是只想写点东西玩玩,虽然对很多人来说,我这个太低级了。。。。。

1、将两张表拼接在一起

  ◆pd.merge(表1,表2,left_on='左属性',right_on='右属性',how='outer')
    #这里pd要先导入pandas包;how的值,left左连接,right右连接,outer外连接,inner内连接

  ◆pd.concat([表1,表2],axis=0)
    #这里的拼接是竖着直接拼接,若axis=1则是横着拼接

2、查看缺失值情况

  ◆查看表里各列缺失值的个数
    表.apply(lambda x:sum(x.isnull()),axis=0)

  ◆查看某一属性列缺失值的详细情况
    x=表[pd.isnull(表['属性名'])]
    len(x)#用来查看缺失值个数

3、缺失值的填充

  ◆表['属性名']=表['属性名'].fillna(值)
    #一般来说,填充用均值、众数等,或者直接删除

4、值.strip('acb')、值.replace('abc','123')

   ◆strip是首尾两端开始去掉在'acb大小'里的部分,即(a、b、c、大、小)都要去掉,直至遇到不在里面的
     例如:a='bcda大中小大a',则a.strip('acb大小')结果是 'da大中'

   ◆replace是一整块替换,将值里面'abc'整块替换为'123',必须是'abc'一整块的才会替换


5、删除某一列<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值