“数据分析师”招聘信息的数据分析

数据分析的五大步骤:
在这里插入图片描述
接下来根据以上步骤对招聘信息进行数据分析
一、 提出问题

  1. 数据分析师的工资如何?
  2. 数据分析师在不同的城市工作机会又是如何?
  3. 数据分析师的工资跟工作经验是什么关系?
    二、 理解数据
    理解表的字段
    城市:比较不同城市,对数据分析师的需求是怎么样的?
    职业ID:职位的唯一标识符,可以根据这个字段去掉重复的ID
    薪水:比较不同城市,不同阶段的薪水情况
    工作年限要求:根据工作经验判断薪水情况
    三、 数据清洗
    数据清洗就是数据的预处理,去掉重复值,处理缺失值,筛选符合我们要求的数据
  4. 选择子集
    本来数据字段如截图
    在这里插入图片描述
    我们可以隐藏不需要分析的字段,不用删掉,因为要保证数据的完整性,选择隐藏的字段后的数据字段如下:
    操作:选中你要隐藏的字段->鼠标右击->选择隐藏
    在这里插入图片描述
  5. 列名重命名
    将不合适的不是通熟易懂的字段重命名为我们所容易理解的字段名。
  6. 删除重复值
    对重复的数据进行删除
    在这里插入图片描述
    在这里插入图片描述
  7. 处理缺失值
    先查看数据完整的列的计数,然后检查其他列的计数就可以判断数据是否缺失
    在这里插入图片描述
    这里职位ID的数据是完整的,计数如右下角
    选中城市列可以发现该列缺失两个数据
    在这里插入图片描述
    处理缺失值有4种方法:
    a) 通过人工补全
    b) 删除缺失值
    c) 用平均值补充
    d) 用统计模型计算出的值去补充
    这里对(城市)这一列数据的补充如下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

输入“上海”,按住Ctrl+Enter就可以补充其他空值为“上海”
5. 一致化处理
1)对数据统一的命名和处理
举例数据中的公司所属领域是“移动互联网,电子商务” 这样的数据是要拆分列
步骤如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
结果
注意:
1) 要将数据先复制到最后一列,因为分列会覆盖右边单元格,隐藏原始列
2) 对拆分的列要进行命名,且要跟原来的列有所区分,否则数据透视时会出现警告:“数据表字段名无效”
接下来用另一个方法对薪水列进行分列
首先对以下函数进行理解
Find(要查找的字符串,字符串所在单元格位置)
Left/Right(字符串所在单元格位置,从左/右开始到某位置进行截取)
Mid(字符串所在单元格位置,开始位置,截取长度)
Len函数(计算字符串长度)
查找“k”:Find(“k”,Q2)
在这里插入图片描述

最低薪水的取值可以利用Left函数截取
LEFT(Q2,Find(“k”,Q2))
最高薪水的取值可以利用Mid函数截取

位置 1 2 3 4 5 6
字符串 7 k - 1 9 k
FIND(“-“,Q2)+1 意思是从第四个位置开始
LEN(Q2)-FIND(“-”,Q2)意思是6-3
综合起来就是要LEN(Q2)-FIND(“-”,Q2)-1
Mid(Q2, FIND(“-“,Q2)+1, LEN(Q2)-FIND(“-”,Q2)-1)
在这里插入图片描述
完成拆分列后要检测数据是否正确,此时可以用筛选功能去检测

在这里插入图片描述
在这里插入图片描述
观察数据可以看出是因为薪水这一列K是大写导致数据异常,那么可以利用查找和替换功能去解决这个异常问题
在这里插入图片描述
在这里插入图片描述

此时利用筛选功能你可以看到数据没有异常了,接下来检测最高薪水
在这里插入图片描述
最高薪水这一列的数据异常是因为薪水这一列是多少k以上的
在这里插入图片描述
解决方法:
选中最高薪水该列,定位条件为错误,
在这里插入图片描述
在这里插入图片描述
然后清除内容,输入=按住ctrl+方向键然后ctrl+ENTER,意思是用左边单元格数据填充
平均薪水,利用AVERAGE函数去求即可
6. 数据排序
对平均薪水降序排序
在这里插入图片描述
7. 异常值处理
使用数据透视表处理表格
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

上图可以看到这些值是异常的,不是我们要的数据分析,所以要去除掉
步骤如下:
1) 在原表中职位名称后面插入新的列命名为“数据分析职位名称”
2) 在单元格插入函数
=IF(COUNT(FIND({“数据运营”,“数据分析”,“分析师”},L2)),“是”,“否”)
在这里插入图片描述

3) 使用筛选功能去掉异常值也就是“否”
四、 构建模型及数据可视化

  1. 数据分析师在不同的城市工作机会又是如何?
    以城市为行标签,以工作年限要求为列标签,数据透视分析不同城市对不同年限的数据分析师的需求情况
    选中表格的行标签进行排序->其他排序选项->降序排序->计数项:城市
    在这里插入图片描述
    将数值按列汇总的百分比显示的数据如下:
    在这里插入图片描述

将数值按行汇总百分比显示的数据如下
在这里插入图片描述

结论:从数据透视表可以看出,在北京对数据分析师的需求最大,其次是上海,深圳,杭州,广州,按工作年限来看,对于有3-5年的工作经验的需求最大,其次是1-3年,可见数据分析师岗位对年轻人的需求是比较大的。
2. 数据分析师的工资如何?
数据分析要选择描述统计,然后根据下图进行操作
在这里插入图片描述
在这里插入图片描述
平均薪水

平均 17.11141
标准误差 0.126833
中位数 15
众数 15
标准差 8.996242
方差 80.93237
峰度 2.415907
偏度 0.973314
区域 73.5
最小值 1.5
最大值 75
求和 86087.5
观测数 5031
最大(5) 70
最小(5) 1.5
置信度(95.0%) 0.248649
五、 数据可视化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
得出结论:

  1. 数据分析师的工作机会大多数分布在一线城市,北京的需求最多
  2. 薪资方面来看,是深圳的最高,其次是北京,上海。
  3. 随着工作经验的积累,薪资会不断的提升,因此可以得出工作经验对于数据分析师来说是比较重要的。
  4. 数据分析师是个较为年轻的职业方向,工作机会经验要求分布在1-3年,也可以看出5年是个瓶颈期。
  5. 对于广州来说,对工作经验需求比较大的是1-3年,薪资涨的幅度比较大的也是在有积累1-3年的时候比较大。
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值