秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!

【编者按】失业潮随经济寒冬席卷而至,与战战兢兢的中年人害怕失去工作不同,#95后秒辞#居然上了微博热搜成了热门话题。据《中国青年报》援引研究报告报道,受调查的95后年轻人平均7个月就会辞职,离职率相当高。

 

离职原因五花八门令人捧腹:公司电脑太烂、午餐难吃、人际关系复杂、感觉不顺心、累了想歇歇、挤不上二号线、想回家减肥......调研报告显示,无论工作还是生活95后都不愿意将就,他们更保持个性更注重自我感受。

 

员工离职受年龄段的影响真的如此明显吗?性别、工资、岗位、通勤,这些因素跟员工离职率的关系是什么?企业如何才能通过数据更好地分析员工流失的原因,并采取有效措施降低员工离职率呢?

 

Kaggle的一位分享者使用R语言对IBM的人力资源数据进行了探索式分析。

 

以下是作者原文

 

经理们总是容易忽略‘员工离职’这个问题的关键所在:员工辞的不是工作;而是他上司的为人与管理。” Travis BradBerry,选自《Business Insider》。

 

注意:

 

即使仍有许多不完善的地方,我仍然决定发布这个Kernel。主要原因是我想向Kaggle社区展示这个Kernel并听听大家的意见。所以可能下面的有些描述尚不完整,但别担心,我的目标是在自己正式使用这个项目时将其填充完整,而我也已经迫不及待想听听你们的有趣建议了!

 

这个项目的目标是什么?

 

  • 给初学者做参考:首先,必须承认我自己也是初学者。 我算是“R”世界的小白,所以希望能够借此机会多向大家学习。 现在我的目标是能给初学者提供一个可靠的参考,让他们可以在使用R编程语言时查看。 如果你觉得需要添加一些内容,请写信给我,我将非常欢迎!

 

  • 探索性数据分析:我的数据科学之旅的第一件事就是了解数据背后的故事。 如果连数据都不够了解,那么实现预测算法又有什么意义呢? 我的理念是“深入研究”数据,直到找到可以让我更好地了解这些数据的有趣见解。

 

  • 给出建议:通过对此数据的分析,我将向组织提供一些建议。  我认为“组织如何降低公司内部的损耗率?”是分析中最重要的部分,因为它将帮助我们更好地理解组织可以做些什么来避免人员流失的负面影响。

 

  • 建模:最后,实施预测模型以预测确定未来一段时间某个员工是否要离职。

 

那么如何定义人员流失以及它受哪些因素影响呢?

 

人员流失:基本上是组织内员工的流动率。

 

出现这种情况的原因有很多:

  • 员工寻找更好的机会

  • 工作环境较差

  • 管理不善

  • 员工生病(甚至死亡)

  • 工作时间过长

 

项目结构:

该项目将按以下方式构建

  • 提出问题:在做数据可视化之前会提出问题,以确保此项目中的可视化内容有的放矢。

  • 得到结论:在每个部分之后,我将提供一个摘要总结,以展示我们从可视化过程中获得的结论。

  • 给出建议:向组织提出相关建议以降低员工流失率。

 

通过这种方式构建项目,流程将更容易掌握,也更便于后面想要跟进这个Kernel的人理解。

 

一、数据摘要  

 

在深入进行数据可视化之前,如何确保数据的准确性?

 

这一问题将更好地帮助我们掌握如何在整个项目中使用我们的数据。

 

提出问题:

  • 字段和观测值:数据集中有多少个字段、多少条观测值?

  • 数据缺失:数据集中是否存在缺失的数据?

  • 数据类型:在此数据集中包含哪些数据类型?

  • 数据分布:是左偏、右偏还是对称分布?如果要做统计分析或者建模,这个信息可能会用到。

  • 数据结构部分数据集有点复杂,但是,tidyverse包对于处理复杂的数据集非常有用。

  • 数据含义我们的数据说明的是什么问题?此数据集中的大多数特征都是与分类变量相似的顺序变量。此数据集中的许多变量的范围为1-4或1-5,序数变量越低,情况就会越差。例如,工作满意度1 =“低”而4 =“非常高”。

  • 标签:数据集中的标签是什么,或者输出的标签是什么?

 

摘要总结:

  • 数据集结构:1470个观测值(行),35个特征(变量)

  • 数据缺失:幸运的是,我们没有缺失数据! 这样可以更轻松地使用数据集。

  • 数据类型:此数据集中只有两种数据类型:因子型和整数型。

  • 标签:“Attrition”是数据集中的标签,我们想知道员工离开组织的原因!

  • 非平衡数据集:共计1474条案例,其中1237(占总数的84%)员工没有离开组织,而237(占总数16%)确实离开组织。这导致数据集被认为是不平衡的,因为留在组织中的人大于实际离开的。

 

 

二、按性别分析

 

在本节中,我们将尝试查看组织中男性和女性之间是否存在一些差异。 此外,我们也将查看其他基本信息,如年龄,工作满意度以及平均工资。

 

提出问题:

  • 男性和女性员工的年龄分布如何? 是否存在重大差异?

  • 流失员工的平均工作满意度是多少? 是否存在性别差异?

  • 男性和女性员工的平均工资是多少? 每个部门男性、女性的员工人数又是多少?

 

摘要总结:

  • 年龄分布:女性的平均年龄为37.33,男性的平均年龄为36.65,两种分布相似。

  • 工作满意度:对于未离开组织的个人,男女的工作满意度水平几乎相同。 然而,对于已离职的人来说,女性的满意度要低于男性。

  • 薪资:男女员工的平均工资几乎相同,男性平均薪水为6380.51,女性为6686.57

  • 部门:三个部门的男性人数较多,但女性在研发部门占主导地位。

 

 

三、按年龄段和受教育程度分析

 

众所周知,每代人都有其独特的特点,我决定在这个数据集中探索相关问题。

 

提出问题:

每代人服务过的公司平均数是多少? 我想看看是不是过去几代人在每一家公司待的时间会比新一代的年轻人长一些。

 

摘要总结:

  • 已离职员工:对于这一类型的员工,我们看到婴儿潮一代(1946-1964出生)的人跳槽过更多公司。

  • 千禧一代(1982-2000出生):大多数千禧一代仍然相对年轻,所以这就解释了为什么千禧一代跳槽的公司数量相对较少,但我估计这个数字会随着时间的流逝而增加。

  • 年龄段与员工流失的关系:似乎千禧一代是人员流动率最高的人,其次是婴儿潮一代。这告诉我们什么?千禧一代更容易因为自己的某个需求而换工作,而婴儿潮一代接近退休,这可能是其流动率第二高的原因之一。

  • 受教育程度与人员流失的关系:这与之前的陈述密切相关,千禧一代受教育程度普遍较高,所以创造了组织内部最高的流失。

 

 

四、按收入分析

 

我想知道薪资收入的影响程度。 在这里,我们将分析是否“钱是万能的”!

 

提出问题:

  • 部门的月平均收入是多少? 离职与未离职的人之间是否存在显着差异?

  • 工作满意度是否随着收入水平的变化而有显着变化? 满意度较低的个人获得的收入是否远低于满意度较高的人?

  • 离职员工的收入是否低于未离职员工的收入?

  • 绩效评级较高的员工收入是否远高于绩效较低的员工? 员工流失的差异是否显着?

 

摘要总结:

  • 部门收入与人员流失:哇! 不同部门收入不同、员工流失率也存在明显差异。

  • 工作满意度与收入: 一定收入水平下,似乎工作满意度越低,流失率越高。

  • 离职员工样本:我想说大多数样本人口的工资增长率低于15%,月收入低于7,000。

  • 工作疲劳:超过54%的离开组织的工人加班严重! 这会是员工离职的原因吗?

 

 

 

 

五、按工作环境分析

 

在本节中,我们将探讨与工作环境和组织结构相关的内容。

 

提出问题:

  • 工作角色:每个工作角色中有多少名员工?

  • 各工作角色的工资:每个工作角色的平均工资是多少?

  • 工作角色与人员流失:每个工作角色的员工流失率是多少? 哪个工作角色的流失率最高? 哪个最低?

  • 与当前经理共事的时长:不同时长的平均满意率分别是多少? 最近雇用的经理是否为员工带来了更高的工作满意度?

  • 工作角色的工作环境:不同工作角色的工作环境是否存在差异?

 

摘要总结:

  • 按工作角色划分的员工人数:销售和科研专家是员工人数最多的工作岗位。

  • 工作岗位与薪酬:经理和研究员平均薪资最高。

  • 工作岗位与员工流失:销售代表,医疗保健代表和经理的流失率最高。 这可以告诉我们,在这些部门中,我们遇到了员工的某些问题。

  • 经理:与最近被雇佣的经理打交道的员工的满意度得分低于那些在本公司工作较长时间的经理。

  • 工作环境:正如预期的那样,管理人员和医疗保健代表处于较差的工作环境中,但是,由于大多数销售代表在外工作,所以我们找不到两者之间的相似之处。

 

 

六、深入研究

 

在本节中,我们将尽可能深入地了解员工,以便更好地了解员工决定离开组织的一些原因。

 

提出问题:

各部门员工流失情况:每个部门流失多少员工? 他们有适当的平衡工作与生活吗?

工作距离:从家到公司的距离是离开组织的一个重要因素吗?其他可能影响员工的因素

 

 

在本节中,我们将分析可能对离开组织的个人产生影响的其他外部因素。

包括:

  • 从家到公司的距离

  • 出差情况

  • 婚姻状况

  • 股票期权水平

 

这一部分里面还有很多工作要做,我们将进一步分析

 

 

七、相关性和双变量分析

 

在本节中,我们将了解哪些特征之间具有正相关性。 这告诉我们两个变量之间是否存在关联。

 

摘要总结:

  • 总工作年数越高,员工的月收入越高。

  • 薪资涨幅越高,绩效评级越高。

  • 现任经理的任职时间越久,晋升时间间隔越长。

  • 年龄越大,月收入越高。

 

八、图表源码及数据

 

以上就是这个项目的全部内容。值得注意的是,作者给我们提供了此项目的完整数据集,并将上述可视化图表的所有代码开放了出来。

 

如果你想利用这个项目中的数据集做练习、做探索性分析或是想参考项目中可视化图表的源码,回复即可获取!

 

参考文献:

  • R for Data Science by Hadley Wickham and Garrett Grolemund (O'Reilly). Copyright 2017 Garret Grolemund, Hadley Wickham, 978-1-491-91039-9

  • F1 Data analysis by Jonathan Bouchet

相关推荐
Excel数据分析与图表应用案例精粹_光盘 杨广于 清华大学出版社,2012 目录 第1章 公式与函数基本操作 1   1.1 Excel公式的基本操作 1   1.1.1 公式的输入与编辑 1   1.1.2 公式中的运算符 2   1.1.3 单元格的引用方式 3   1.1.4 名称的定义及应用 5   1.2 Excel函数的基本操作 7   1.2.1 函数的输入技巧 7   1.2.2 函数的种类 9   1.2.3 函数的参数类型 10   1.3 公式与函数应用技巧 11   1.3.1 复制公式 11   1.3.2 把公式转换为值 12   1.3.3 隐藏工作表中的公式 13   1.3.4 公式与函数运算中常见错误解析 15   第2章 数据筛选与排序 17   2.1 数据筛选 17   2.1.1 应用自动筛选 17   2.1.2 应用高级筛选 23   2.1.3 按单元格颜色进行筛选 25   2.2 数据排序 26   2.2.1 简单排序 26   2.2.2 对员工信息表进行笔划排序 27   2.2.3 按行排序 28   2.2.4 多列排序 29   2.2.5 自定义排序次序 30   2.2.6 按单元格颜色进行排序 32   第3章 图表基本操作 34   3.1 常用图表创建 34   3.1.1 创建柱形图 34   3.1.2 创建饼形图 36   3.1.3 创建条形图 38   3.1.4 创建折线图 41   3.2 其他图表的创建 43   3.2.1 创建股价图 43   3.2.2 创建圆环图 44   3.2.3 创建面积图 46   3.2.4 创建散点图 48   3.2.5 创建组合图 49   第4章 图表编辑与美化 53   4.1 编辑图表 53   4.1.1 变更图表类型 53   4.1.2 添加数据系列 54   4.1.3 数据标签代替图例 56   4.1.4 添加垂直线 57   4.1.5 设置对数刻度 58   4.1.6 调整分类轴标签 59   4.1.7 用文本框代替图例 60   4.1.8 在图表中显示数据表 61   4.1.9 设置数据轴的最小值和最大值 62   4.1.10 处理丢失数据 63   4.1.11 添加趋势线 65   4.1.12 更改数据系列的显示方式 67   4.2 美化图表 67   4.2.1 美化图表标题 67   4.2.2 美化数据系列 69   4.2.3 在图表中插入图片 72   第5章 企业日常费用统计与分析 74   5.1 建立日常费用记录表 74   5.2 利用筛选功能分类查看日常费用 76   5.2.1 查看指定部门的日常费用支出情况 76   5.2.2 查看指定类别的日常费用支出情况 77   5.2.3 查看支出金额最小的几项记录 78   5.2.4 查看特定费用类别中大于或等于指定金额的记录 79   5.3 利用汇总功能统计日常费用 79   5.3.1 统计各部门费用支出总额 80   5.3.2 统计各类别费用支出总额 81   5.4 利用数据透视表(图)统计日常费用 82   5.4.1 统计各部门费用支出金额 82   5.4.2 统计各类别费用支出金额 84   5.4.3 统计各部门各类别费用支出金额 85   5.4.4 比较各部门各类别1、2月的费用 87   第6章 企业日常费用预测与分析 89   6.1 使用线性拟合直线法预测 89   6.1.1 使用LINEST函数进行线性拟合 90   6.1.2 直接获取线性拟合方程的斜率和截距 94   6.1.3 使用线性拟合方程预测费用 96   6.1.4 使用TREND函数预测费用 98   6.2 使用指数回归拟合曲线法预测 101   6.2.1 使用LOGEST函数进行指数回归拟合 101   6.2.2 直接获取指数回归拟合方程的系数和常量 105   6.2.3 使用指数回归拟合方程预测费用 106   6.2.4 使用GROWTH函数预测费用 107   6.3 线性与指数预测结果比较分析 109   第7章 广告支出费用预测与分析 115   7.1 广告支出综合分析 115   7.1.1 创建广告支出费用统计表 115   7.1.2 创建各区域广告支出比例图 117   7.1.3 创建各月广告支出比例图 118   7.1.4 各区域费用支出趋势分析 119   7.2 广告支出费用与销售关系分析 120   7.2.1 使用散点图进行分析 120   7.2.2 使用“协方差”分析工具进行分析 123   7.3 2011年度广告支出与销量预测 126   7.3.1 指数预测销量 126   7.3.2 线性预测销量 129   第8章 产品采购数据处理与分析 132   8.1 建立采购数据统计表 132   8.2 利用汇总功能统计各品种采购数量与采购金额总额 136   8.3 利用函数分析采购数据 138   8.3.1 统计各品种采购数据总和及占总和比例 138   8.3.2 分析最低采购价格及对应的供应商 140   8.4 利用图表显示各品种采购金额在总和中所占比例 142   8.5 利用数据透视表分析采购数据 144   8.5.1 分析各品种产品的采购情况 144   8.5.2 分析各供应商的供应数据 146   第9章 产品销售数据处理与分析 147   9.1 建立销售数据统计表 147   9.2 利用分类汇总功能分析销售数据 151   9.2.1 统计各品种产品的销售数量与销售金额 151   9.2.2 统计各客户购买数量与购买金额 152   9.3 利用函数、图表分析销售数据 153   9.3.1 分析各品种产品销售情况 153   9.3.2 分析各销售人员的业绩 156   9.3.3 使用SUMPRODUCT函数精确分析 158   9.3.4 本期客户交易评估 161   9.4 利用数据透视表分析销售数据 164   9.4.1 分析客户采购情况 164   9.4.2 分析应收账款 166   第10章 产品库存数据处理与分析 169   10.1 建立库存数据统计表 169   10.2 利用函数、图表分析出入库数据 172   10.2.1 计算各品种产品的出入库数据 172   10.2.2 通过图表比较各品种产品的入库数据 174   10.3 利用函数实现按日查询出入库数据 175   10.4 利用函数查询各系列产品的出入库数据 181   10.5 出入库累计汇总 184   10.6 利用数据透视表分析出入库数据 187   10.6.1 统计各品种产品的出入库数据 188   10.6.2 统计各日期的出入库数据 190   第11章 企业人事数据管理与分析 191   11.1 员工档案数据管理 191   11.1.1 建立员工档案管理表 191   11.1.2 档案数据的查看与筛选 197   11.1.3 新建工作表用于查询员工档案 199   11.1.4 分析员工的学历层次 201   11.1.5 分析员工的年龄层次 204   11.2 员工考勤数据管理 206   11.2.1 创建员工考勤记录表 206   11.2.2 填制考勤表 209   11.2.3 统计各员工本月的请假天数、迟到次数及应扣款 210   11.2.4 分析各部门的请假情况 214   11.3 员工培训成绩管理 215   11.3.1 统计每位员工的总成绩、平均成绩并进行排名 215   11.3.2 分析各科目成绩 217   第12章 企业工资数据处理与分析 219   12.1 创建工资记录表 219   12.1.1 建立员工基本工资记录表 219   12.1.2 建立员工业绩提成、奖金、罚款记录表 221   12.1.3 建立员工加班工资统计表 223   12.1.4 建立员工考勤扣款统计表 226   12.2 创建工资统计表 226   12.3 创建工资单 231   12.3.1 建立第一位员工的工资单 231   12.3.2 快速生成每位员工的工资单 233   12.4 按部门汇总工资额 234   12.4.1 利用分类汇功能按部门汇总工资额 234   12.4.2 利用SUMIF函数按部门汇总工资额 236   12.5 利用数据透视表分析工资数据 237   12.5.1 按部门查询工资额 237   12.5.2 按部门统计应发工资总额 238   第13章 生产计划统计与分析 241   13.1 制订生产计划 241   13.1.1 各车型生产计划图表分析 241   13.1.2 各部门生产计划图表分析 243   13.2 实际产量完成比例分析 244   13.2.1 创建生产记录表格 244   13.2.2 按产品分析计划完成进度 246   13.2.3 按部门分析计划完成进度 250   13.3 生产计划完成情况预测 255   第14章 新产品价格分析 260   14.1 价格数据定位分析 260   14.1.1 计算价格的置信区间 260   14.1.2 价格排位分析 262   14.1.3 价格数据频率分析 263   14.2 样本描述性分析 267   14.2.1 性别描述性分析 267   14.2.2 年龄和月收入描述性分析 269   14.3 影响价格的因素分析 270   14.3.1 性别与价格相关性分析 270   14.3.2 年龄与价格相关性分析 273   14.3.3 月收入与价格相关性分析 274   14.4 使用直方图定位最适合价格 274   第15章 企业固定资产数据统计与分析 276   15.1 固定资产参数设置 276   15.2 固定资产清单 278   15.2.1 创建固定资产清单 278   15.2.2 计算固定资产折旧 281   15.3 制作固定资产卡片 287   15.4 使用图表法分析固定资产折旧 295   15.4.1 直线折旧法图表分析 295   15.4.2 余额递减折旧法图表分析 299   15.4.3 年限总和折旧法图表分析 300   第16章 产品生产方案规划求解 302   16.1 建立规划求解问题模型 302   16.2 生产成本最小化规划求解 305   16.2.1 成本最小化规划求解 306   16.2.2 成本最小化分析报告 309   16.3 利润最大化规划求解 311   16.3.1 利润最大化规划求解 311   16.3.2 利润最大化分析报告 314   16.4 创建并管理方案 315   16.4.1 将规划求解的结果保存为方案 315   16.4.2 合并方案 318   16.4.3 创建方案摘要和方案透视表 319   第17章 企业筹资与投资决策分析 321   17.1 筹资决策数据处理与分析 321   17.1.1 长期借款筹资决策分析 321   17.1.2 租赁筹资决策分析 330   17.1.3 两种筹资方案的比较分析 332   17.2 投资决策数据处理与分析 336   17.2.1 简单法投资决策数据处理与分析 336   17.2.2 贴现法投资决策数据处理与分析 338   第18章 市场调查数据处理与分析 344   18.1 建立调查问卷和调查结果接收表 344   18.1.1 建立调查问卷 344   18.1.2 建立记录调查结果的工作表 347   18.2 汇总统计调查结果 350   18.2.1 汇总所有调查结果 350   18.2.2 替换编码生成结果数据库 351   18.3 分析样本组成 353   18.3.1 分析性别组成 354   18.3.2 分析年龄组成 356   18.3.3 分析居住城市组成 358   18.4 分析品牌知名度 359   18.4.1 分析品牌知名度 360   18.4.2 分析地域-品牌知名度 361   18.5 分析品质认知度与地域的相关性 363   18.6 分析品牌忠诚度与性别的相关性 365   第19章 汽车保险数据分析 368   19.1 创建承保客户基本资料库 368   19.1.1 创建并输入客户基本信息 368   19.1.2 计算年龄、驾龄和车龄 370   19.1.3 客户年龄透视分析 372   19.2 保费收入统计分析 375   19.2.1 保费收入结构分析 375   19.2.2 各明细险种投保率分析 377   19.3 保费支出统计分析 380   19.3.1 创建赔款支出数据清单 380   19.3.2 赔款结构分析 382   19.3.3 按客户姓名汇总赔款 384   19.3.4 赔款金额与赔款频率分析 386   19.4 客户管理与等级划分 389   19.4.1 按客户计算赔付率 389   19.4.2 根据赔付率设置客户等级 390   19.4.3 客户级别透视分析 392   第20章 商业房地产数据分析 394   20.1 主要经济指标GDP分析 394   20.2 写字楼供应量分析 396   20.2.1 写字楼供应量分析 396   20.2.2 开发面积增长状况分析 399   20.2.3 各年度写字楼分布区域分析 401   20.2.4 分布区域综合分析 404   20.3 写字楼吸纳量分析 405   20.3.1 销售吸纳量分析 405   20.3.2 出租吸纳量分析 409   20.3.3 空置率分析 410   20.3.4 市场饱和度分析 410   20.4 销售价格与出租价格分析 411   20.4.1 按时间序列分析 411   20.4.2 按空间序列分析 413   第21章 股票数据分析 416   21.1 股票指数的中心趋势分析 416   21.1.1 计算股票指数的算术平均值 416   21.1.2 计算股票指数的几何平均值 417   21.1.3 计算调和平均数 418   21.1.4 计算众数 419   21.1.5 计算中位数 419   21.2 股票指数离散趋势分析 420   21.2.1 计算方差 420   21.2.2 计算标准差 421   21.2.3 计算四分位数 422   21.3 创建股价图进行分析 423   21.3.1 绘制K线图 423   21.3.2 使用K线图分析股票走势 426   21.4 两支股票对比分析 431
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页