Python数据处理函数(DatFrame)篇

本文详细介绍了Python中DataFrame数据处理的常见操作,包括去重、拼接(concat、merge、join、append)、索引(reset_index、set_index)以及显示和缺失值处理。重点讲解了各个函数的参数和使用场景,例如drop_duplicates、pd.concat、pd.merge、reset_index、set_index、dropna和fillna等。
摘要由CSDN通过智能技术生成

由于某些数据处理的函数偶尔忘记使用方式以及参数,于此记录一下。

1.去重

最常用的不过是 drop_duplicates() 了,参数:
subset:列标签,可选
keep:firstlastFalse,默认为first
inplace:默认为False

#直接对数据data进行去重处理:
data.drop_duplicates(inplace = True)

#对数据data的column1、column2进行去重处理:
data.drop_duplicates(subset=['column1','column2'],inplace = True)

#对数据进行处理时保留重复数据的最后一个
data.drop_duplicates(keep='last',inplace=True)

#删除所有重复项
data.drop_duplicates(keep = False,inplace=True)

注:这里的inplace=True是指在原数据中进行操作(覆盖),如果默认为False时只会复制一个数据处理进行处理,不会对原数据本身有影响。

#以下两行代码同效
data.drop_duplicates(inplace = True)
data = data.drop_duplicates()

2.拼接

数据的拼接有多个函数:merge、concat、join、append等,个人比较习惯于用前三个

2.1 pd.concat

常用参数:

objs:需要拼接的数据
axis=0:需要拼接的位置,默认为沿行拼接,axis=1时为并行拼接
join=‘outer’:默认为外连接,join='inner’时为内连接
join_axes=None:默认为None,join_axes=df1.index时为左连接,join_axes=df2.index时为右连接
ignore_index=False:默认不丢弃数据原本索引,当ignore_index=True时将重新建立一个新的索引
copy=True:默认为将结果复制到数据框结构中,当copy=False时将在原数据进行修改。

pd.concat([df1,df2])
pd.concat([df1,df2],join = 'inner')
pd.concat([df1,df2],ignore_index = True)
pd.concat([df1,df2],join_axes = df1.index)
pd
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值