【python】数据预处理整理

本文详细介绍了使用Python进行数据预处理的过程,包括数据清洗、缺失值处理、异常值检测和标准化等关键步骤,旨在为数据挖掘和分析提供高质量的数据准备阶段实践方法。
摘要由CSDN通过智能技术生成
#导入库
import pandas as pd
import numpy as np

#导入数据集
 dataset = pd.read_csv('Data.csv')
 
#把格式调成数据框
df = pd.DataFrame(data)

#显示 dataframe 的简明摘要,包括每列非空值的数量
df.info()

# 返回每列数据的有效描述性统计
df.describe()

# 查看每列的索引号和标签
df.columns

# loc[]传入的是行、列的名字:如loc[‘第几行’,'那一列’]
# iloc[]传入的是行、列的索引:如iloc[1,1]就是第二行第二列
df.loc[A,B]
df.iloc[A,B]

#####################查看缺失数据
df.isnull().sum()

#axis=0表示删除这一行,=1表示删除这一列
df.dropna(axis=0,inplace=True)

#常数填充缺失值
df.fillna(0, inplace=True) # 填充 0

# 对每一列的缺失值,填充当列的均值
df.fillna(df.mean(),inplace=True) 

#数据冗余
df.duplicated() #来查看冗余行,
df.drop_duplicates(inplace=True) #删除冗余

#表连接 concat()函数
pd.concat(objs, # 要合并对象
		axis=0, # 选择合并轴,0按列,1按行
		join='outer', # 连接方式,默认并集
		join_axes=None, #参数 join_axes 可指定 index 来对齐数据。这样会切掉指定的 index 之外的数据
		ignore_index=False, #当设为 ignore_index=True 时,新 df 将不会使用拼接成员 df 的 index,而是重新生成一个从 0 开始的 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值