对比Excel-Python数据分析——数据预处理（2）

最新推荐文章于 2023-07-06 16:34:25 发布

千里足行~始于足下

最新推荐文章于 2023-07-06 16:34:25 发布

阅读量320

点赞数 1

分类专栏： python 数据分析文章标签：数据分析 cpython

本文链接：https://blog.csdn.net/weixin_43585712/article/details/107599416

版权

python 同时被 2 个专栏收录

29 篇文章 5 订阅

订阅专栏

数据分析

11 篇文章 0 订阅

订阅专栏

1. 缺失值处理

处理原则：1.删除，2.以某种形式的值填充

1.1 缺失值的查看

info()可以查看缺失值
在这里插入图片描述

isnull()可以判断哪个值是缺失值，如果是返回True，否返回False

1.2 缺失值的删除

# 只要某一行有缺失值就把这一行删除
df.dropna()
# 如果只想删除空白行
df.dropna(how=all)

1.3 缺失值的填充

#括号内填要填充的值
df.fillna() 
# 按照不同的列填充
df.fillna({'列名1'：'要填充的值1','列名2'：'要填充的值2'})

2. 重复值处理

#对所有值进行重复值判断，且默认保留第一行的值
df.drop_duplicates()
#针对某些字段的值进行重复值判断，且默认保留第一行的值
#keep=first保留第一行，last最后一行，false重复值全删除
df.drop_duplicates(subset=['列名1','列名2']，keep='first')

3. 异常值的检测与处理

3.1 异常值的处理

异常值的检测可以用各种数学方法。
处理：筛选后再删除或者用replace（）替换

4. 数据类型的转换

在这里插入图片描述

数据类型的查看：df.info()或者df.dtype
数据转换为int类型：df.astype(‘int’)

5. 索引设置

5.1 为无索引表添加索引

在这里插入图片描述

5.2 重新设置索引

将表中的指定列为新的行索引
在这里插入图片描述

5.3 重命名索引

针对现有的索引进行修改，就是改字段名。
在这里插入图片描述

5.4 重置索引

重置索引主要用在层次化索引表中，重置索引是将索引列当作一个columns进行返回。
在这里插入图片描述

千里足行~始于足下

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对比Excel-Python数据分析——数据预处理（2）

1. 缺失值处理处理原则：1.删除，2.以某种形式的值填充1.1 缺失值的查看info()可以查看缺失值isnull()可以判断哪个值是缺失值，如果是返回True，否返回False1.2 缺失值的删除# 只要某一行有缺失值就把这一行删除df.dropna()# 如果只想删除空白行df.dropna(how=all)1.3 缺失值的填充#括号内填要填充的值df.fillna() # 按照不同的列填充df.fillna({'列名1'：'要填充的值1','列名2'：'要填充的值
复制链接

扫一扫