pandas数据清洗
01 | 数据清洗常用方法
02 | 数据集
链接: https://pan.baidu.com/s/153_QvZ-t1E2hykW2Cubg3Q
提取码: s98j
简介
这是一份旅行网站的数据集,数据包括每个行程的具体信息,比如出发地目的地、酒店情况、价格等等。我们利用这份数据集,来操作一次数据清洗的过程
03 | 数据清洗
1.查看基本信息
①一共有5100个数据,包括13个columns
②部分clomns存在空格
# 导入需要的库
import pandas as pd
pd.set_option('display.max_columns',1000)
pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',1000)
# 读取数据基本信息
df = pd.read_csv(r'C:\Users\Administrator\Documents\Downloads\qunar_freetrip.csv',index_col = 0)
print(df.head())
print(df.info())
print(df.describe())
2.处理空格
① 先将index转array
② 将空格replce or使用 strip()方法
columns = df.columns.values
print(columns)
df.columns = [x.strip() for x in columns]
print(df.columns)
3.处理重复值
① 先用duplicated()查看是否有重复项
② 利用drop_duplicates(inplace = True)删除
print(df.duplicated().value_counts()) # 共有100个重复值
duplicate = df[df.duplicated()]
print(duplicate) # 打开被定义为重复值的part
# 删除重复值,inplace = True 代表在原数据集上更改,两种方法都可以