拉勾招聘数据分析

3 篇文章 0 订阅
3 篇文章 0 订阅

一、项目背景

毕业季的到来,每个大学生也引来了自己的就业问题,应该去怎样的城市,公司的融资水平,公司的规模,薪资水平,工作经验等都是每个大学生头疼的问题,为了更好的方便就业,用数据说话,本篇通过11个城市的招聘信息,从公司规模,薪资水平,工作经验分析就业选择。

二、项目介绍

本项目主要是以拉勾招聘网对11个城市的招聘信息分析,主要通过tableau和sql分析,整个项目可分为项目目的的确定,数据来源,数据处理,数据分析,问题详解,项目总结(因在python数据处理后没有重复值和缺失值)。

三、项目流程

项目目的

各城市招聘信息占比,各城市对专业和经验的敏感度,薪资水平,融资水平等。

数据来源

来自微信公众号(路人甲TM)提供的数据

数据处理

添加了一些字段(将C005和C006薪资上限和下限合并成一个字段,新建了一个实习和应届字段,新建了一个薪资上限和下限的平均值薪资(主要运用sql的case when和if函数)),将C005和C006字段隐藏。

数据可视化分析

 由图可知:本数据中广州、深圳、北京、上海、杭州的公司数最多,达到1000以上,北京最多达到1900多家公司。

由图可知,由于显示问题,学历分别以不限,大专,本科,硕士排序,每个城市对本科生的需求都是极大,对于北京,对本科生的需求最大,对于广州,大专和本科生的需求接近,占比极大

由图可知,由于显示问题,经验分别以不限,应届毕业生,1-3年,3-5年,5-10年,10年以上,对于每个城市对1-3年和3-5年的需求最大,对于 北京,3-5年的需求最大,而对于广州,1-3年的需求最大。

 由图可知各公司规模占比,公司规模少于15人的占比最少,仅为4.27%,15-50人,50-150人以及150-500人的公司规模占比差不多,达到20%之间。而500人-2000人的公司规模和2000人以上的公司规模占比差不多,分别为13.16%和14.73%,公司规模发展到500以上的公司是很多公司都想达到层次,也吸引更多优秀的择业者。

由图可知薪资水平分布,10-20w的招聘信息最多,有6000份招聘信息以上 ,其次是20-30w的招聘信息,而50-100w的最少,仅有19份。(PS:希望你我是其中的几位)

由图可知各发展阶段的公司数 ,其中初创型(未融资)的占比最大,达到2008,其次是上市公司,达到1789,而在上市公司以下四个层次,从成长型就开始递减,证明从成长型到上市公司需要经过不断考验最终才能登顶上市公司。

由上述仪表板可看出,对于公司编程能力需求,以JAVA占据首位,达到38.86% ,其次是PHP,占27.63%,而C#排名最低,仅为6.43%。对于影响薪资水平的因素,工作经验的增长,学历的程度上升,公司规模的增大都将促进薪资水平。

对于应届生和实习生,我制作了以下仪表板供你们对比:

 

问题详解

我在制作公司发展阶段对薪资影响的时候,出现了两次断层

我们取成熟型(不需要融资)和成长型(B轮)进行对比。

 成熟型的平均线低于成长型,且成熟型的10-20w远高于成长型,我们有理由相信成熟型的薪资偏向10-20远大于成长型,最终得出成熟型的薪资出现断层。

对于上市公司我们取成熟型(D轮及以上)与上市公司对比

由图可知,在10-20w薪资水平中,成熟型(D轮及以上)占百分之7.75%,而上市公司占45.52%,这可能是拉低平均薪资的原因之一。

项目总结

本次项目通过拉勾招聘信息,在多个维度进行对比,提供了实行生和应届生的仪表板参考,解决了数据断层的问题,这次试验从sql到tableau,在数据处理时我发现数据处理的多个操作存在重复,是否可以做一个自动化程序解决这一问题,方便更好的数据分析呢?未来我将抽时间学习此个项目,未来更新先将经历集中在sql查询,推出sql难题板块。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
拉勾数据分析数据分析报告 简介:试着,做了⼀个拉勾数据分析师职位的数据分析。 其实,虽然很想做数据分析师,但是是跨⾏,⼼⾥相当忐忑,做这个分析就相当于加深⾃⼰对数据分析这个⾏业的了解了。 ⼤致思路 ⼤致思路 起始 起始 数据来源 数据来源 本来是想⾃⼰写个爬⾍的,可是学了好久,还是不能融会贯通,总会出⼀些bug,只能继续学习,争取早⽇修成爬神功。⼜想着,总不能还 没开始,就结束了这次实验。最后⽆意中发现了⼀个爬⾍⼯具--⼋⽖鱼、、只需要点点点(其实,当时有种挫败感)。不过,总算数据总算 有了。 过程 过程 数据的清洗与处理 数据的清洗与处理 这⾥试着⽤了两种⼯具,Excel + Python,也⽐较了⼀下⼆者的优点。与前⼈所述基本⼀致,纸上得来终觉浅啊。 想说⼀下字段的命名,如果⽤了Python进⾏处理的话,最好还是把字段命名为英⽂,或者说字母。可以简化后期处理,会⽅便很多。 当然,你如果全⽤Excel是⽤中⽂命名,也是没有问题的。 Excel的处理过程 的处理过程 预防万⼀ 预防万⼀ 所谓预防万⼀,就是将Excel另存⼀份源数据,以免后期发⽣不可预知错误。 清洗与处理 清洗与处理 命名字段 命名字段 处理 处理salary列 列 新建⼯作表,将salary字段复制过来。 1. 清除所有格式。 2. 数据-分列-固定符号-"-" 3. 查找替换 k。这⾥说明下,清除格式后,⽆论查找⼤写K还是⼩写k,均可。 4. 因为抓取的数据是⼀组区间值,⽆法直接使⽤,因此取薪资的中间值也就是平均值。使⽤函数 'MEDIAN' ,它会返回⼀组数的中值, 或者使⽤ 'AVERAGE' 也可。得到的值如下: 5. 再对这组值进⾏数据分析,数据-数据分析-描述统计,得到最⼤值,最⼩值,全距,再根据公式计算组数,组距,进⾏数据分组,再根 据 ' FREQUENCY '函数计算每组频率。 接下来,就可以绘制图表了。 ps:或者直接在第5步,采⽤数据分析⼯具中的直⽅图,进⾏分析。 处理 处理experience、 、city、 、education、 、property、 、scale列 列 新建⼯作表,复制。 1. 清除所有格式。 2. 使⽤函数 'SUBSTITUTE' 替换所有 "/",或者直接查找替换。 3. 数据透视表统计,绘图。 处理 处理field列 列 新建⼯作表,复制。 1. 清除所有格式 2. 查找替换"、",","为半⾓","。 3. 分列。 这样,基本就处理完了。 数据展⽰ 数据展⽰ ⾏业及职位数量 ⾏业及职位数量 从图中可以看出,17个⾏业中,移动互联⽹对数据⼈才的需求量是最⼤的,其次是⾦融和电⼦商务,⽽⽣物服务、⽂化娱乐、旅游、分类 信息、硬件等的需求量最少。我认为,这从⼀个侧⾯反映了移动互联⽹数据量的巨⼤,以及对⼈才的渴求。 城市与职位 城市与职位 ⾸先看⼀下,职位主要分布的区域: 从图中可以看到,招聘公司主要位于南⽅。 再看⼀下,城市与职位: 这⾥主要截取了前10个城市,毫⽆意外,北上⼴赫然在列,杭州也很多,排在⼴州前⾯。看来,我们这些想做数据分析师的⼈,都⽆法逃 离北上⼴啊。嗯,你也可以去杭州,据在那⼉⽣活了七⼋年的同学来说,他不想⾛了。 ⾏业、城市与薪资 ⾏业、城市与薪资 前⾯数据处理得到了每个职位的平均薪资,这⾥进⼀步处理得到了每个⾏业在每个城市的平均薪资。下图是招聘最多的⼏个⾏业在每个城市 的平均薪资。 从图中可以知道,整体上相对来说,⼴州在这些⾏业中属于较低的。北京、上海差距不是太⼤。 招聘公司融资阶段 招聘公司融资阶段 招聘不同职称的数量 招聘不同职称的数量 这⾥借助python进⾏了统计: python import pandas as pd data = pd.DataFrame(pd.read_csv(r'C:\Users\sunshine\Desktop\2017.8.20.csv',encoding = 'gbk')) data.columns positionName = [] for i in range(len(data.position)): if "实习" in data.position[i]: positionName.append("实习") elif "助理" in data.position[i]: positionName.append("助理") elif "专员" in data.position[i]: positionName.append("专员") elif "主管" in data.position[i]: positionName.append("主管") elif "经理" in data.position[i]: positionName.append("
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值