数据的清洗
import pandas as pd
data = pd.read_excel(r'F:\数据分析—pandas\人事终表.xlsx').head()
print(data)
Unnamed: 0 部门 姓名 应发数 发放时间 绩效 合计工资
0 0 2017借调(4人) 张琳 4131.0 2020-07工资 3800.0 7931.0
1 1 2017借调(4人) 王琪 4131.0 2020-07工资 4000.0 8131.0
2 2 2017借调(4人) 苏蓓 4131.0 2020-07工资 3800.0 7931.0
3 3 2017借调(4人) 本秋媛 4131.0 2020-07工资 3800.0 7931.0
4 4 2017招聘(3人) 张丽彦 4131.0 2020-07工资 3800.0 7931.0
1.检测与处理缺失值
data.isnull()
|
Unnamed: 0 |
部门 |
姓名 |
应发数 |
发放时间 |
绩效 |
合计工资 |
0 |
False |
False |
False |
False |
False |
False |
False |
1 |
False |
False |
False |
False |
False |
False |
False |
2 |
False |
False |
False |
False |
False |
False |
False |
3 |
False |
False |
False |
False |
False |
False |
False |
4 |
False |
False |
False |
False |
False |
False |
False |
data.notnull
data['绩效'].notnull().sum()
5
2.空值的处理方法
data.fillna({
'部门':'实习','应发数':0,'绩效':0,'发放时间':"2020-07工资"},limit=None,inplace=True)
data['合计工资']=data['应发数']+data['绩效']
print(data.tail(10))
Unnamed: 0 部门 姓名 应发数 发放时间 绩效 合计工资
0 0 2017借调(4人) 张琳 4131.0 2020-07工资 3800.0 7931.0
1 1 2017借调(4人) 王琪 4131.0 2020-07工资 4000.0 8131.0
2 2 2017借调(4人) 苏蓓 4131.0 2020-07工资 3800.0 7931.0
3 3 2017借调(4人) 本秋媛 4131.0 2020-07工资 3800.0 7931.0
4 4 2017招聘(3人) 张丽彦 4131.0 2020-07工资 3800.0 7931.0
data.dropna(axis=0