【python】数据预处理整理

最新推荐文章于 2024-06-21 13:19:16 发布

着凉xxx

最新推荐文章于 2024-06-21 13:19:16 发布

阅读量1.4k

点赞数 1

分类专栏：笔记文章标签： python 数据挖掘数据分析

本文链接：https://blog.csdn.net/weixin_48040339/article/details/123380705

版权

本文详细介绍了使用Python进行数据预处理的过程，包括数据清洗、缺失值处理、异常值检测和标准化等关键步骤，旨在为数据挖掘和分析提供高质量的数据准备阶段实践方法。

摘要由CSDN通过智能技术生成

#导入库
import pandas as pd
import numpy as np

#导入数据集
 dataset = pd.read_csv('Data.csv')
 
#把格式调成数据框
df = pd.DataFrame(data)

#显示 dataframe 的简明摘要，包括每列非空值的数量
df.info()

# 返回每列数据的有效描述性统计
df.describe()

# 查看每列的索引号和标签
df.columns

# loc[]传入的是行、列的名字：如loc[‘第几行’,'那一列’]
# iloc[]传入的是行、列的索引：如iloc[1,1]就是第二行第二列
df.loc[A,B]
df.iloc[A,B]

#####################查看缺失数据
df.isnull().sum()

#axis=0表示删除这一行，=1表示删除这一列
df.dropna(axis=0,inplace=True)

#常数填充缺失值
df.fillna(0, inplace=True) # 填充 0

# 对每一列的缺失值，填充当列的均值
df.fillna(df.mean(),inplace=True) 

#数据冗余
df.duplicated() #来查看冗余行，
df.drop_duplicates(inplace=True) #删除冗余

#表连接 concat()函数
pd.concat(objs, # 要合并对象
		axis=0, # 选择合并轴,0按列，1按行
		join='outer', # 连接方式,默认并集
		join_axes=None, #参数 join_axes 可指定 index 来对齐数据。这样会切掉指定的 index 之外的数据
		ignore_index=False, #当设为 ignore_index=True 时，新 df 将不会使用拼接成员 df 的 index，而是重新生成一个从 0 开始的