pandas-数据清洗

本文介绍了使用pandas进行数据清洗的全过程,包括查看基本信息、处理空格、删除重复值、异常值处理、缺失值填充、文本数据处理、时间序列转换和数据提取。通过实例分析了如何对旅行网站数据集进行数据预处理,涉及正则表达式和数值判断等关键步骤。
摘要由CSDN通过智能技术生成

01 | 数据清洗常用方法

在这里插入图片描述

在这里插入图片描述

02 | 数据集

链接: https://pan.baidu.com/s/153_QvZ-t1E2hykW2Cubg3Q
提取码: s98j

简介
这是一份旅行网站的数据集,数据包括每个行程的具体信息,比如出发地目的地、酒店情况、价格等等。我们利用这份数据集,来操作一次数据清洗的过程

03 | 数据清洗

1.查看基本信息

①一共有5100个数据,包括13个columns
②部分clomns存在空格

# 导入需要的库
import pandas as pd

pd.set_option('display.max_columns',1000)
pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',1000)

# 读取数据基本信息
df = pd.read_csv(r'C:\Users\Administrator\Documents\Downloads\qunar_freetrip.csv',index_col = 0)
print(df.head())
print(df.info())
print(df.describe())

在这里插入图片描述

2.处理空格

① 先将index转array
② 将空格replce or使用 strip()方法

columns = df.columns.values
print(columns)
df.columns = [x.strip() for x in columns]
print(df.columns)

在这里插入图片描述

3.处理重复值

① 先用duplicated()查看是否有重复项
② 利用drop_duplicates(inplace = True)删除

print(df.duplicated().value_counts()) # 共有100个重复值
duplicate = df[df.duplicated()]
print(duplicate) # 打开被定义为重复值的part
# 删除重复值,inplace = True 代表在原数据集上更改,两种方法都可以
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值