本文爬取了某招聘网站数据分析职位的相关数据,基于SQL和python分析数据分析的岗位需求,了解各个行业对数据分析岗位的招聘需求分布,增进对职业前景的了解。
1. 爬取数据
首先,基于python的requests、get_json爬取某招聘网站数据。共爬取了1997条数据,并结合SQL展开分析研究。
2. 数据清洗
在保留原始数据的基础上,新建一个表用来分析,将position_id设为主键,插入去重数据,新建表中共计780条唯一值。
且780条数据中无缺省值,如图。
工资字段均表示为一个范围,且不同范围相互交叉,比较混乱,故本文对工资字段作如下处理:从工资字段提取工资下限min_salary和上限max_salary,并取两者平均值作为薪资水平。这样,将工资范围转换为一个数值,便于统计分析。