Pandas 数据预览与预处理

最新推荐文章于 2024-06-23 08:46:35 发布

Hello_tan

最新推荐文章于 2024-06-23 08:46:35 发布

阅读量412

点赞数

分类专栏： Pandas 文章标签： pandas 数据分析数据挖掘

本文链接：https://blog.csdn.net/weixin_50528299/article/details/129108697

版权

Pandas 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章展示了如何使用Python对数据进行基本查看，包括数据维度、前/后几行、随机样本以及统计信息。接着，文章详细介绍了如何检测并处理数据中的缺失值，如删除、填充（用0、向前填充、整体均值填充、上下均值填充）。最后，文章提到了重复值的检测和删除方法。

摘要由CSDN通过智能技术生成

1、数据查看

#查看数据维度
data.shape

#查看前5行
data.head(5)

#查看后5行
data.tail(5)

#随机查看5行数据
data.sample(5)

#查看数据基本信息
data.info()

#查看数据统计信息
pd.set_option('display.max_rows',10)
data.describe()

#查看数据统计信息｜离散查看 离散型 列的统计信息，计数、频率
data.describe(include=['0'])

#查看数据统计信息|整体
data.describe(include='all')

2、缺失值处理

#缺失值统计
print(data.isna().sum())
print(data.isnull().sum())

#查看缺失值所在行
data[data.isnull().T.any()]

#高亮缺失值
data[data.isnull().T.any() == True].style.highlight_null(null_color='skyblue')

#删除缺失值
data2=data.dropna()
print(data2)

#缺失值补全
data3=data.fillna(0)
print(data3)

#缺失值补全｜向上填充
data['数量']=data['数量'].fillna(axis=0,method='ffill')
print(data)

#缺失值补全｜整体均值填充
data['单价']=data['单价'].fillna(data['单价'].mean())
data['数量']=data['数量'].fillna(data['数量'].mean())
print(data)

#缺失值补全｜上下均值填充
data['数量']=data['数量'].fillna(data['数量'].interpolate())
print(data)

3、重复值处理

#查找重复值
data[data.duplicated()]

#查找重复值｜指定
data[data.duplicated(['数量'])]

# 删除全部的重复值
data1=data.drop_duplicates()
print(data1)

# 删除全部的重复值，但保留最后一次出现的值
data2=data.drop_duplicates(keep='last')
print(data2)