数据分析的待遇怎么样？有什么要求？用爬虫和图告诉你

大数据的奇妙冒险

已于 2022-11-30 16:33:55 修改

阅读量178

点赞数

文章标签：爬虫数据分析 python

于 2022-06-01 19:49:27 首次发布

本文链接：https://blog.csdn.net/weixin_43596734/article/details/125089265

版权

本文介绍了如何使用Python爬虫从某招聘网站获取Python数据分析职位的相关信息，包括学历、工作经验、薪资等，并进行了数据预处理和可视化分析。结果显示，大部分Python数据分析师要求本科学历，工作经验主要集中在1-5年，薪资主要集中在10k-30k。关键词云图揭示了数据分析岗位对统计学、Python、数据挖掘等技能的需求。

摘要由CSDN通过智能技术生成

👉👉👉 哈喽！大家好，我是【大数据的奇妙冒险】的作者 Maxim，具有 Java 以及大数据开发经验，目前是一位大数据领域项目经理。
擅长 Java、大数据开发、项目管理等。持有 PMP 和系统架构设计师证书，可以说是持证上岗了😀
如果有对【大数据】感兴趣的朋友，欢迎关注【大数据的奇妙冒险】

一、明确目的

每次爬虫都要有明确的目的，刚接触随便找东西试水的除外。我想要知道的是python数据分析的要求以及薪资状况，因此，薪资、学历、工作经验以及一些任职要求就是我的目的。

既然明确了目的，我们就要看一下它们在什么位置，所以我们打开浏览器，寻找目标。像这种网站他们的信息一般都是通过ajax加载的，而且在输入“python数据分析”敲击回车之后跳转的页面，招聘信息不是一开始就显示出来的，通过点击页码也只是招聘信息在变化甚至连network都没多大变化，可以大胆猜测他是通过post请求的，所以我们只关注post请求以及XHR文件，很快就发现了我们要的东西。

在这里插入图片描述

点击preview可见详细信息以json形式保存着，其中‘salary’、‘workYear’、‘education’、‘positionID’（招聘信息详情页有关的id）是我们要的。再观察一下它的form data，其中kd=关键字，pn=pageNum（页码）这是我们请求的时候要带上的参数。另外我们要注意请求头的referer参数，待会儿要用。知道了目标之后，爬起来！

二、开始爬虫

先设置请求头headers，把平时用的user-agent带上，再把formdata也带上，用requests库直接requests.post(url, headers=headers, data=formdata)，然后就开始报错了：{“status”:false,“msg”:“您操作太频繁,请稍后再访问”,“clientIp”:“…”,“state”:2402}。

解决这个问题的关键在于，了解其反爬机制：在进入python数据分析招聘页之前，我们要在主页，不妨叫它start_url输入关键字跳转。在这个过程中，服务器会传回来一个cookies，如果带着这个cookies请求的话我们就可以得到要的东西，所以要先请求start_url获取cookies在请求目标url，而且在请求目标地址的话还要带上referer这个请求头参数，referer的含义大概是这样：告诉服务器我是从哪个页面链接过来的，服务器基此可以获得一些信息用于处理。另外，睡眠时间也要设置的长一点，不然很容易被封。知道了反爬机制之后，话不多说，直接上代码。


'''

@author: Max_Lyu

'''

    # 请求起始 url 返回 cookies
    def get_start_url(self):
        session = requests.session()
        session.get(self.start_url, headers=self.headers, timeout=3)
        cookies = session.cookies
        return cookies

    # 将返回的 cookies 一起 post 给 target_url 并获取数据
    def post_target_url(self):
        cookies = self.get_start_url()
        pn = 1
        for pg in range(30):
            formdata = {
                'first': 'false',
                'pn': pn,
                'kd': 'python数据分析'
            }
            pn += 1

            response = requests.post(self.target_url, data=formdata, cookies=cookies, headers=self.headers, timeout=3)
            self.parse(response)
            time.sleep(60)      # 短睡眠时间会被封

    # 解析 response，获取 items
    def parse(self, response):
        print(response)
        items = []
        print(response.text)
        data = json.loads(response.text)['content']['positionResult']['result']

        if len(data):
            for i in range(len(data)):
                positionId = data[i]['positionId']
                education = data[i]['education']
                workYear = data[i]['workYear']
                salary = data[i]['salary']
                list = [positionId, education, workYear, salary]
                items.append(list)
        self.save_data(items)
        time.sleep(1.3)

其中save_data(items)是保存文件，我是保存在csv文件。篇幅有限，这里就不展示了。

三、获取招聘详情

上面说了positionID 是为了获取详情页，详情页里面有要的任职要求。这个要获取就相对容易了，不过文本的处理并没有很简单，我只能通过“要求”这两个字获取任职要求（虽然有的为任职技能啥的，就这样进行取舍了）。

'''

@author: Max_Lyu

'''

def get_url():
    urls = []
    with open("analyst.csv", 'r', newline='') as file:
        # 读取文件
        reader = csv.reader(file)
        for row in reader:
            # 根据 positionID 补全 url
            if row[0] != "ID":
                url = "https://www.lagou.com/jobs/{}.html".format(row[0])
                urls.append(url)

    file.close()
    return urls


# 获取详细信息
def get_info():
    urls = get_url()
    length = len(urls)
    for url in urls:
        print(url)
        description = ''
        print(length)
        response = requests.get(url, headers=headers)
        response.encoding = 'utf-8'
        content = etree.HTML(response.text)
        detail = content.xpath('//*[@id="job_detail"]/dd[2]/div/p/text()')
        print(detail)

        for i in range(1, len(detail)):

            if '要求' in detail[i-1]:
                for j in range(i, len(detail)):
                    detail[j] = detail[j].replace('\xa0', '')
                    detail[j] = re.sub('[、;；.0-9。]', '', detail[j])
                    description = description + detail[j] + '/'
                print(description)
        write_file(description)
        length -= 1
        time.sleep(3)

四、查看数据

在这里插入图片描述

 read_file = "analyst.csv"
# 读取文件获得数据
data = pd.read_csv(read_file, encoding="gbk")
# 去除数据中无关的列
data = data[:].drop(['ID'], axis=1)
# 描述性统计
data.describe()

在这里插入图片描述
结果中的 unique 表示的是在该属性列下面存在的不同值个数，以学历要求为例子，它包含【本科、大专、硕士、不限】这4个不同的值，top 则表示数量最多的值为【本科】，freq 表示出现的频率为 387。

由于薪资的 unique 比较多，我们查看一下存在什么值。

print(data['学历要求'].unique())
print(data['工作经验'].unique())
print(data['薪资'].unique())

在这里插入图片描述

五、预处理

从上述两张图可以看到，学历要求和工作经验的值比较少且没有缺失值与异常值，可以直接进行分析；但薪资的分布比较多，总计有75种，为了更好地进行分析，我们要对薪资做一个预处理。根据其分布情况，可以将它分成【5k 以下、5k-10k、10k-20k、20k-30k、30k-40k、40k 以上】，为了更加方便我们分析，取每个薪资范围的中位数，并划分到我们指定的范围内。

# 对薪资进行预处理
def pre_salary(data):
    salarys = data['薪资'].values
    salary_dic = {}
    for salary in salarys:
        # 根据'-'进行分割并去掉'k',分别将两端的值转换成整数
        min_sa = int(salary.split('-')[0][:-1])
        max_sa = int(salary.split('-')[1][:-1])
        # 求中位数
        median_sa = (min_sa + max_sa) / 2
        # 判断其值并划分到指定范围
        if median_sa < 5:
            salary_dic[u'5k以下'] = salary_dic.get(u'5k以下', 0) + 1
        elif median_sa >= 5 and median_sa < 10:
            salary_dic[u'5k-10k'] = salary_dic.get(u'5k-10k', 0) + 1
        elif median_sa >= 10 and median_sa < 20:
            salary_dic[u'10k-20k'] = salary_dic.get(u'10k-20k', 0) + 1
        elif median_sa >= 20 and median_sa < 30:
            salary_dic[u'20k-30k'] = salary_dic.get(u'20k-30k', 0) + 1
        elif median_sa >= 30 and median_sa < 40:
            salary_dic[u'30k-40k'] = salary_dic.get(u'30k-40k', 0) + 1
        else:
            salary_dic[u'40以上'] = salary_dic.get(u'40以上', 0) + 1
    print(salary_dic)
    return salary_dic

对【薪资】进行预处理之后，还要对【任职要求】的文本进行预处理。因为要做成词云图，需要对文本进行分割并去除掉一些出现频率较多但没有意义的词，我们称之为停用词，所以我们用 jieba 库进行处理。jieba 是一个python实现的分词库，对中文有着很强大的分词能力。


import jieba
def cut_text(text):
    stopwords =['熟悉','技术','职位','相关','工作','开发','使用','能力',
                '优先','描述','任职','经验','经验者','具有','具备','以上','善于',
                '一种','以及','一定','进行','能够','我们']
    for stopword in stopwords:
        jieba.del_word(stopword)
    
    words = jieba.lcut(text)
    content = " ".join(words)
    return content

六、可视化分析

我们先绘制环状图和柱状图，然后将数据传进去就行了，环状图的代码如下：

def draw_pie(dic):
    labels = []
    count = []
    
    for key, value in dic.items():
        labels.append(key)
        count.append(value)
        
    fig, ax = plt.subplots(figsize=(8, 6), subplot_kw=dict(aspect="equal"))

    # 绘制饼状图，wedgeprops 表示每个扇形的宽度
    wedges, texts = ax.pie(count, wedgeprops=dict(width=0.5), startangle=0)
    # 文本框设置
    bbox_props = dict(boxstyle="square,pad=0.9", fc="w", ec="k", lw=0)
    # 线与箭头设置
    kw = dict(xycoords='data', textcoords='data', arrowprops=dict(arrowstyle="-"),
              bbox=bbox_props, zorder=0, va="center")

    for i, p in enumerate(wedges):
        ang = (p.theta2 - p.theta1)/2. + p.theta1
        y = np.sin(np.deg2rad(ang))
        x = np.cos(np.deg2rad(ang))
        # 设置文本框在扇形的哪一侧
        horizontalalignment = {-1: "right", 1: "left"}[int(np.sign(x))]
        # 用于设置箭头的弯曲程度
        connectionstyle = "angle,angleA=0,angleB={}".format(ang)
        kw["arrowprops"].update({"connectionstyle": connectionstyle})
        # annotate()用于对已绘制的图形做标注，text是注释文本，含 'xy' 的参数跟坐标点有关
        text = labels[i] + ": " + str('%.2f' %((count[i])/sum(count)*100)) + "%"
        ax.annotate(text, size=13, xy=(x, y), xytext=(1.35*np.sign(x), 1.4*y),
                     horizontalalignment=horizontalalignment, **kw)
    plt.show()

柱状图的代码如下：


def draw_workYear(data):
    workyears = list(data[u'工作经验'].values)
    wy_dic = {}
    labels = []
    count = []
    # 得到工作经验对应的数目并保存到count中
    for workyear in workyears:
        wy_dic[workyear] = wy_dic.get(workyear, 0) + 1
    print(wy_dic)
    # wy_series = pd.Series(wy_dic)
    # 分别得到 count 的 key 和 value
    for key, value in wy_dic.items():
        labels.append(key)
        count.append(value)
    # 生成 keys 个数的数组
    x = np.arange(len(labels)) + 1
    # 将 values 转换成数组
    y = np.array(count)
    
    fig, axes = plt.subplots(figsize=(10, 8))
    axes.bar(x, y, color="#1195d0")
    plt.xticks(x, labels, size=13, rotation=0)
    plt.xlabel(u'工作经验', fontsize=15)
    plt.ylabel(u'数量', fontsize=15)
    
    # 根据坐标将数字标在图中，ha、va 为对齐方式
    for a, b in zip(x, y):
        plt.text(a, b+1, '%.0f' % b, ha='center', va='bottom', fontsize=12)
    plt.show()

我们再把学历要求和薪资的数据稍微处理一下变成字典形式，传进绘制好的环状图函数就行了。另外，我们还要对【任职要求】的文本进行可视化。


from wordcloud import WordCloud
# 绘制词云图
def draw_wordcloud(content):
    
    wc = WordCloud(
        font_path = 'c:\\Windows\Fonts\msyh.ttf',
        background_color = 'white',
        max_font_size=150,  # 字体最大值
        min_font_size=24,  # 字体最小值
        random_state=800, # 随机数
        collocations=False, # 避免重复单词
        width=1600,height=1200,margin=35, # 图像宽高，字间距
    )
    wc.generate(content)

    plt.figure(dpi=160) # 放大或缩小
    plt.imshow(wc, interpolation='catrom',vmax=1000)
    plt.axis("off") # 隐藏坐标