Python数据分析18——公务员工资数据分析

巴尔的摩公务员数据分析

数据准备

由于我没有找到我们国家的公务员的工资数据,只能用《从零开始学Python数据分析》这本书提供的美国的巴尔的摩的公务员的工资数据。其实,你也可以直接在网上下载,巴尔的摩公务员数据

在这里插入图片描述

查看数据情况

先导入相关的包了打开我们下载好的数据集。

import pandas as pd
import numpy as np
%matplotlib inline
data = pd.read_csv(open('Baltimore.csv'))
data.head()

在这里插入图片描述

下面,我来查看数据集与什么数据。

data.shape

在这里插入图片描述
还有,再看看它的空数据有多少个。
在这里插入图片描述由于我们的数据集比多多数据,可以忽略272个空想,直接去掉就好了。

data = data.dropna()

去掉空集之后,再来看看数据。
在这里插入图片描述

数据清洗

我们之前就看到AnnualSalary和GrossPay两项四有美元符号’ $ '的,所以我们先去掉它。

data['AnnualSalary'] = data['AnnualSalary'].str.strip('$')
data['GrossPay'] = data['GrossPay'].str.strip('$')
data.head()

在这里插入图片描述然后,我们再把两项数据转换为浮点型。

data['AnnualSalary'] = data['AnnualSalary'].astype(float)
data['GrossPay'] = data['GrossPay'].astype(float)

在这里插入图片描述
接下来,我们处理日期数据。我们新建一列入职月份的数据,用于后年的分析。

data['month'] = data['HireDate'].str.split('/').str[0]
data[['HireDate', 'month']].head()

在这里插入图片描述

探索数据

首先,我们用直方图来看看公务员们的年薪的分布情况。

在这里插入图片描述
然后,我们利用刚才新建的入职月份的列,利用横向柱状图查看哪个月份的入职人数最多。
在这里插入图片描述
接下来,我们利用聚合运算,来看看各职位的平均年薪和职位个数。

agg_salary = data.groupby('JobTitle')['AnnualSalary'].agg(['mean', 'count'])
agg_salary.head()

在这里插入图片描述
查看最高年薪的五个职位。
在这里插入图片描述
最后,我们看看最多人数的职位。
在这里插入图片描述

  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值