Pandas 数据预览与预处理

文章展示了如何使用Python对数据进行基本查看,包括数据维度、前/后几行、随机样本以及统计信息。接着,文章详细介绍了如何检测并处理数据中的缺失值,如删除、填充(用0、向前填充、整体均值填充、上下均值填充)。最后,文章提到了重复值的检测和删除方法。
摘要由CSDN通过智能技术生成

1、数据查看

#查看数据维度
data.shape

#查看前5行
data.head(5)

#查看后5行
data.tail(5)

#随机查看5行数据
data.sample(5)

#查看数据基本信息
data.info()

#查看数据统计信息
pd.set_option('display.max_rows',10)
data.describe()

#查看数据统计信息|离散查看 离散型 列的统计信息,计数、频率
data.describe(include=['0'])

#查看数据统计信息|整体
data.describe(include='all')

2、缺失值处理

#缺失值统计
print(data.isna().sum())
print(data.isnull().sum())

#查看缺失值所在行
data[data.isnull().T.any()]

#高亮缺失值
data[data.isnull().T.any() == True].style.highlight_null(null_color='skyblue')

#删除缺失值
data2=data.dropna()
print(data2)

#缺失值补全
data3=data.fillna(0)
print(data3)

#缺失值补全|向上填充
data['数量']=data['数量'].fillna(axis=0,method='ffill')
print(data)

#缺失值补全|整体均值填充
data['单价']=data['单价'].fillna(data['单价'].mean())
data['数量']=data['数量'].fillna(data['数量'].mean())
print(data)

#缺失值补全|上下均值填充
data['数量']=data['数量'].fillna(data['数量'].interpolate())
print(data)

3、重复值处理

#查找重复值
data[data.duplicated()]

#查找重复值|指定
data[data.duplicated(['数量'])]

# 删除全部的重复值
data1=data.drop_duplicates()
print(data1)

# 删除全部的重复值,但保留最后一次出现的值
data2=data.drop_duplicates(keep='last')
print(data2)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值