#导入库
import pandas as pd
import numpy as np
#导入数据集
dataset = pd.read_csv('Data.csv')
#把格式调成数据框
df = pd.DataFrame(data)
#显示 dataframe 的简明摘要,包括每列非空值的数量
df.info()
# 返回每列数据的有效描述性统计
df.describe()
# 查看每列的索引号和标签
df.columns
# loc[]传入的是行、列的名字:如loc[‘第几行’,'那一列’]
# iloc[]传入的是行、列的索引:如iloc[1,1]就是第二行第二列
df.loc[A,B]
df.iloc[A,B]
#####################查看缺失数据
df.isnull().sum()
#axis=0表示删除这一行,=1表示删除这一列
df.dropna(axis=0,inplace=True)
#常数填充缺失值
df.fillna(0, inplace=True) # 填充 0
# 对每一列的缺失值,填充当列的均值
df.fillna(df.mean(),inplace=True)
#数据冗余
df.duplicated() #来查看冗余行,
df.drop_duplicates(inplace=True) #删除冗余
#表连接 concat()函数
pd.concat(objs, # 要合并对象
axis=0, # 选择合并轴,0按列,1按行
join='outer', # 连接方式,默认并集
join_axes=None, #参数 join_axes 可指定 index 来对齐数据。这样会切掉指定的 index 之外的数据
ignore_index=False, #当设为 ignore_index=True 时,新 df 将不会使用拼接成员 df 的 index,而是重新生成一个从 0 开始的
【python】数据预处理整理
最新推荐文章于 2024-06-21 13:19:16 发布
本文详细介绍了使用Python进行数据预处理的过程,包括数据清洗、缺失值处理、异常值检测和标准化等关键步骤,旨在为数据挖掘和分析提供高质量的数据准备阶段实践方法。
摘要由CSDN通过智能技术生成