巴尔的摩公务员数据分析
数据准备
由于我没有找到我们国家的公务员的工资数据,只能用《从零开始学Python数据分析》这本书提供的美国的巴尔的摩的公务员的工资数据。其实,你也可以直接在网上下载,巴尔的摩公务员数据
查看数据情况
先导入相关的包了打开我们下载好的数据集。
import pandas as pd
import numpy as np
%matplotlib inline
data = pd.read_csv(open('Baltimore.csv'))
data.head()
下面,我来查看数据集与什么数据。
data.shape
还有,再看看它的空数据有多少个。
由于我们的数据集比多多数据,可以忽略272个空想,直接去掉就好了。
data = data.dropna()
去掉空集之后,再来看看数据。
数据清洗
我们之前就看到AnnualSalary和GrossPay两项四有美元符号’ $ '的,所以我们先去掉它。
data['AnnualSalary'] = data['AnnualSalary'].str.strip('$')
data['GrossPay'] = data['GrossPay'].str.strip('$')
data.head()
然后,我们再把两项数据转换为浮点型。
data['AnnualSalary'] = data['AnnualSalary'].astype(float)
data['GrossPay'] = data['GrossPay'].astype(float)
接下来,我们处理日期数据。我们新建一列入职月份的数据,用于后年的分析。
data['month'] = data['HireDate'].str.split('/').str[0]
data[['HireDate', 'month']].head()
探索数据
首先,我们用直方图来看看公务员们的年薪的分布情况。
然后,我们利用刚才新建的入职月份的列,利用横向柱状图查看哪个月份的入职人数最多。
接下来,我们利用聚合运算,来看看各职位的平均年薪和职位个数。
agg_salary = data.groupby('JobTitle')['AnnualSalary'].agg(['mean', 'count'])
agg_salary.head()
查看最高年薪的五个职位。
最后,我们看看最多人数的职位。