python数据清洗常用举例

python数据清洗常用举例

数据展示

在这里插入图片描述

练习代码

import pandas as pd
import numpy as np
import os
from datetime import datetime
# review_date 转为时间戳形式



# import matplotlib.pyplot as plt
data=pd.read_excel(r"C:\Users\10746\Desktop\aa\111.xlsx",engine='openpyxl')
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
print(data.head())

#删除重复值
data.drop_duplicates(['班级','姓名'],inplace=True)

#查看异常值
print(data.describe())
# data.iloc[:,2:5].plot.box()
# pd.set_option('display.max_columns',None)
# pd.set_option('display.max_rows',None)
data[(data[['语文','数学','英语']]>100) | (data[['语文','数学','英语']]<0)]=np.nan
# datetime.date(2021,12,1)
#空值处理
#查看空置
print(data.isnull().sum())
#空值赋值
da=data.groupby(['班级','年级'])['语文','数学','英语'].mean()

data.set_index(['班级','年级'],inplace=True,drop=False)



data['语文'].fillna(da['语文'],inplace=True)
data['数学'].fillna(da['数学'],inplace=True)
data['英语'].fillna(da['英语'],inplace=True)

#分组排序
data.reset_index(drop=True,inplace=True)
data.sort_values(by=['年级','班级'],inplace=True,ascending=[True,False])
# data['rank'] = data.groupby(['年级','班级'])['语文'].rank(method='min',ascending=False)
data['rank'] = [i for i in range(data.iloc[:,0].count())]

#格式修改
data['语文']=data['语文'].astype(int)

#日期修改
data['rq'] = data['日期'].apply(lambda x : x.strftime('%Y/%m/%d')) #将日期变为/连接的,格式变为obj
data['rq']=data['rq'].apply(pd.to_datetime,format='%Y-%m-%d')#将rq还原为日期
# data['rq']=data['rq'].apply(lambda x:datetime.strftime(x,"%Y'年'"))#将rq还原为日期 由日期格式转化为字符串格式的函数为: datetime.datetime.strftime() 由字符串格式转化为日期格式的函数为: datetime.datetime.strptime()

#转为时间戳
data['rq']=data['rq'].apply(lambda x:int(datetime.timestamp(x)))#转为时间戳
data['rq']=pd.to_datetime(data['rq'], unit='s')#时间戳转时间

data['rq']=data['rq'] + pd.Timedelta(days=1)#加一天

data['y'] = data['日期'].dt.year #提取年 month day hor minute
data['rrq']=f'{data["rq"].dt.year}{data["rq"].dt.month}{data["rq"].dt.day}日'
data['rrq']=list(map(lambda x:f'{x:%Y}年',data['rq']))
if os.path.exists(r'C:\Users\10746\Desktop\aa\1.xlsx'):
    os.remove(r'C:\Users\10746\Desktop\aa\1.xlsx')
data.to_excel(r'C:\Users\10746\Desktop\aa\1.xlsx')

结果展示

在这里插入图片描述

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值