pandas-数据清洗

最新推荐文章于 2024-11-02 20:25:41 发布

冷淡的蛋黄酱

最新推荐文章于 2024-11-02 20:25:41 发布

阅读量1k

点赞数

分类专栏：数据分析案例

本文链接：https://blog.csdn.net/weixin_52730784/article/details/116565879

版权

本文介绍了使用pandas进行数据清洗的全过程，包括查看基本信息、处理空格、删除重复值、异常值处理、缺失值填充、文本数据处理、时间序列转换和数据提取。通过实例分析了如何对旅行网站数据集进行数据预处理，涉及正则表达式和数值判断等关键步骤。

摘要由CSDN通过智能技术生成

pandas数据清洗

01 | 数据清洗常用方法
02 | 数据集
03 | 数据清洗
04 | 数据提取
- 1.正则表达式
5.数值判断
- 1.isin( )

01 | 数据清洗常用方法

在这里插入图片描述

02 | 数据集

链接: https://pan.baidu.com/s/153_QvZ-t1E2hykW2Cubg3Q
提取码: s98j

简介
这是一份旅行网站的数据集，数据包括每个行程的具体信息，比如出发地目的地、酒店情况、价格等等。我们利用这份数据集，来操作一次数据清洗的过程

03 | 数据清洗

1.查看基本信息

①一共有5100个数据，包括13个columns
②部分clomns存在空格

# 导入需要的库
import pandas as pd

pd.set_option('display.max_columns',1000)
pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',1000)

# 读取数据基本信息
df = pd.read_csv(r'C:\Users\Administrator\Documents\Downloads\qunar_freetrip.csv',index_col = 0)
print(df.head())
print(df.info())
print(df.describe())

在这里插入图片描述

2.处理空格

① 先将index转array
② 将空格replce or使用 strip()方法

columns = df.columns.values
print(columns)
df.columns = [x.strip() for x in columns]
print(df.columns)

在这里插入图片描述

3.处理重复值

① 先用duplicated()查看是否有重复项
② 利用drop_duplicates(inplace = True)删除

print(df.duplicated().value_counts()) # 共有100个重复值
duplicate = df[df.duplicated()]
print(duplicate) # 打开被定义为重复值的part
# 删除重复值,inplace = True 代表在原数据集上更改，两种方法都可以

最低0.47元/天解锁文章