爬取boss热门城市数据分析岗位进行数据分析

本文通过爬取Boss直聘上一线城市和部分新一线城市的‘数据分析’岗位,分析了不同工作年龄和地区的薪资状况,展示了薪资分布、各城市薪资中位线以及各工龄薪资变化。结果显示,数据分析岗位的薪资集中在5-10k,北京薪资最高,工作3年后薪资有显著提升。招聘最多的是数据分析师,主要需求行业为互联网、计算机软件和电子商务。
摘要由CSDN通过智能技术生成

爬取boss热门城市数据分析岗位进行数据分析

前言
看了这么久的博客,还是第一次写博客。
朋友圈看到某培训班统计的数据分析岗位的平均薪资已经达到13k左右了。
这篇文章的数据来源是来自boss直聘的热门城市的“数据分析”的岗位,也就是所谓的一线城市加上绝大部分新一线城市,我这里多加了个福州,毕竟胡建人嘛。文章主要从不同工作年龄和不同地区的薪资情况,各薪资范围内的人数,各招聘岗位招聘的人数以及招聘公司所处的行业的词云图进行分析

数据获取
爬取数据用到的模块:

import requests
from fake_useragent import UserAgent
from lxml import etree
import json
import csv

爬取boss网站的时候要注意加cookie,不然返回的时候boss会给你一个请稍后的页面,第一个{}里面用来存放城市的代码,第二个用来存放页数,由于boss网站一个职位只能查看前十页,所以需要遍历城市才能爬取更多的数据

    def __init__(self):
        self.url_temp = "https://www.zhipin.com/{}/?query=数据分析&page={}"
        self.headers = {
   'user-agent': ua.random,
        'referer': 'https://www.zhipin.com/c101230100/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&page=9',
        'cookie': ''}

提取数据

#提取数据
    def get_content_list(self,html_str):
        html = etree.HTML(html_str)
        #分组
        div_list = html.xpath("//li/div[@class='job-primary']")
        print(div_list)
        content_list = []
        for con in div_list:
            item = {
   }
            item['post'] = con.xpath(".//div[@class='job-title']//text()")[0]
            item['company'] = con.xpath(".//div[@class='info-company']/div/h3/a//text()")[0]
            item['salary'] = con.xpath(".//h3/a/span/text()")[0]
            item['education'] = con.xpath("./div[@class='info-primary']/p//text()")[-1]
            item['workyear'] = con.xpath("./div[@class='info-primary']/p//text()")[1]
            item['industry'] = con.xpath(".//div[@class='company-text']/p//text()")[0]
            item['stage'] = con.xpath(".//div[@class='company-text']/p//text()")[1]
            item['scale'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值