数据预处理时的一些基本操作

1、删除某一列:

            df.drop(列名,axis = 1(删除列),inplace = True(对原dataframe进行操作)

2、判断哪一列有空值:

            df.isnull().any()

           如果有空值 则该列返回True,否则返回False

3、删除值含空的数据

            df.dropna()    参数how默认为any

            如果该行数据有空 则删除这一行,how如果为all 则该行所有数据全为空时才删除

4、通过其他列的计算生成一列新数据

            df[新列名] = df[列名1]/df[列名2]

5、根据某一列进行排序

            df.sort_values(by = 列名,asending = True)

6、查看某一列都有那些元素

           df[列名].unique()

7、统计某一列各个元素出现次数

          df[列名].value_counts()

8、以某一列分组,得到每个组的某一列数据和

         df.groupby(要分组的列名)[要求数据的列名].sum()

         df.groupby(要分组的列名)[要求数据的列名].apply(sum)

9、多条件查询

        df.groupby([列名1,列名2])[要查询的列名].sum()

10、对某一列使用函数

        df[列名].map(函数名)

11、进行数据类型的转换(这里转化为时间类型)

        df[列名] = pd.to_datatime(df[列名])

12、将series中的一级索引转化为列索引(一般对分组后的数据操作)

        s1.unstack(一级索引名)

13、把列索引转化为series一级索引(一般对分组后的数据操作)

        df.stack(列名)

14、合并数据

        pd.concat([df1,df2,df3],ignore_index = True)

        ignore_index = True表示重新设置索引

后续更新......

            

        

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值