背景介绍:在前程无忧网站,以"数据分析师"+"武汉"作为搜索关键词,爬取50页岗位数据合计980条。以该数据为基础,从岗位搜索匹配度、HR活跃度、不同区域/行业/企业的岗位数量和薪资分布等角度进行分析。
-
1、原始数据清洗(略)
薪资字段处理、岗位符合度判断、HR活跃度判断等 -
2、分析步骤
①岗位搜索准确性与页面的相关度
②适配岗位的HR活跃度
以下继续基于有效岗位(岗位适配+HR活跃),从下面几个角度展开分析
③企业性质分布
④企业规模分布
⑤行业类型分布
⑥地址位置分布
在没有深入分析之前,就感觉到网站很不好用!!! 比如:不显示岗位发布时间 不能批量投递 岗位详情页的数据也没有以前好爬了
分析之后,会发现:感觉一点没错,确实十分难用,无米之炊+拙妇,给找工作雪上加霜了属于是!!!
-
2-1 岗位搜索相关度 ——30页后就别看了
虽然网站给出了近1000条搜索记录,但是越往后有效岗位数量越少,前10页有效岗位在50%以上,10~20页有效岗位1/3,后面就更稀疏。