今年就业形势如何？爬取全国数据分析岗招聘信息【爬虫部分】

第九十七

已于 2023-06-21 00:59:34 修改

阅读量540

点赞数

文章标签： python 数据挖掘爬虫数据分析

于 2023-06-21 00:56:45 首次发布

本文链接：https://blog.csdn.net/weixin_54356127/article/details/131313950

版权

本文介绍了一个使用Python爬虫从Zhaopin.com抓取数据分析岗位招聘信息的方法，包括设置请求头、获取用户输入的页数、解析HTML内容，以及利用XPath提取职位、公司、薪水等信息，并将数据保存为CSV文件。文章还展示了如何合并不同城市的数据。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

每年都有招聘信息，我们可以通过编写一个爬虫程序来获取这些信息，从而了解招聘情况。

提示：以下是本篇文章正文内容，下面案例可供参考

一、说明

二、使用步骤

1.导入

代码如下（示例）：

import requests
from lxml import etree
import pandas as pd
if __name__ == '__main__':
    headers = {
        'User-Agent': '',
        'Cookie': ''
    }

2.读取每一页数据

代码如下（示例）：

    # 获取用户输入的页数
    num_pages = int(input('请输入要爬取的页数：'))
    # 爬取指定页数的内容
    data_div = []
    for page in range(1, num_pages + 1):
        # jl=548，这里是要搜索的城市，在网页中自己看，我选的是广东
        url = f'https://sou.zhaopin.com/?jl=548&kw=数据分析&p={page}'
        page_text = requests.get(url=url, headers=headers).text
        tree = etree.HTML(page_text)
        div_list = tree.xpath('//*[@id="positionList-hook"]/div/div[@class="joblist-box__item clearfix"]')
        print(f'第{page}页开始爬取')
        if not div_list:    # 输入的数足够大，可以爬完所有的数据，没有数据自动跳出（最多好像是34页）
            # 如果当前页没有数据，则跳出循环
            break
        for div in div_list:
            job = div.xpath('./a/div[1]/div[1]/span/@title')
            job = job[0] if job else '' 判断空值，不跳过会报错

            workcopany = div.xpath('./a/div[1]/div[2]/span/text()')
            workcopany = workcopany[0] if workcopany else ''

            salary = div.xpath('./a/div[2]/div[1]/p/text()')
            salary = salary[0] if salary else ''

            place = div.xpath('./a/div[2]/div[1]/ul/li[1]/text()')
            place = place[0] if place else ''

            experience = div.xpath('./a/div[2]/div[1]/ul/li[2]/text()')
            experience = experience[0] if experience else ''

            education = div.xpath('./a/div[2]/div[1]/ul/li[3]/text()')
            education = education[0] if education else ''

            job_type = div.xpath('./a/div[2]/div[2]/span[1]/text()')
            job_type = job_type[0] if job_type else ''

            scale = div.xpath('./a/div[2]/div[2]/span[2]/text()')
            scale = scale[0] if scale else ''

            describe = div.xpath('./a/div[3]/div[1]/div/text()')

            ahref = div.xpath('./a/@href')  # 岗位链接
            ahref = ahref[0] if ahref else ''
            describe_str = '、'.join(describe)
            data_lis = [job, workcopany, salary, place, experience, education, job_type, scale, describe_str, ahref]
            data_div.append(data_lis)
# 保存到excel
data = pd.DataFrame(data_div, columns=['职位', '公司名称', '薪水', '地点', '经验', '学历', '公司类型', '公司规模', '岗位标签', '链接'])
# 将数据框保存为CSV文件
data.to_csv('广东数据分析岗位.csv', index=False, encoding='utf-8', decimal=",")
print('爬取完成！！！')

这里使用了7个xpath，个人觉得看起来舒服点。

最后

可以爬取多个城市的csv文件，拼接起来

import pandas as pd
import numpy as np
data1 = pd.read_csv('广东数据分析岗位.csv')
data2 = pd.read_csv('海南数据分析岗位.csv')
result = pd.concat([data1, data2], axis=0)
result.to_csv('广东海南数据分析岗位表.csv', index=False)

参考来源：工作台 - Heywhale.com

第九十七

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
今年就业形势如何？爬取全国数据分析岗招聘信息【爬虫部分】

提示：以下是本篇文章正文内容，下面案例可供参考可以爬取多个城市的csv文件，拼接起来data1 = pd.read_csv('广东数据分析岗位.csv')data2 = pd.read_csv('海南数据分析岗位.csv')result.to_csv('广东海南数据分析岗位表.csv', index=False)工作台 - Heywhale.com。
复制链接

扫一扫