今年就业形势如何?爬取全国数据分析岗招聘信息【爬虫部分】

本文介绍了一个使用Python爬虫从Zhaopin.com抓取数据分析岗位招聘信息的方法,包括设置请求头、获取用户输入的页数、解析HTML内容,以及利用XPath提取职位、公司、薪水等信息,并将数据保存为CSV文件。文章还展示了如何合并不同城市的数据。
摘要由CSDN通过智能技术生成

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

每年都有招聘信息,我们可以通过编写一个爬虫程序来获取这些信息,从而了解招聘情况。

提示:以下是本篇文章正文内容,下面案例可供参考

一、说明

 

二、使用步骤

1.导入

代码如下(示例):

import requests
from lxml import etree
import pandas as pd
if __name__ == '__main__':
    headers = {
        'User-Agent': '',
        'Cookie': ''
    }

2.读取每一页数据

代码如下(示例):

    # 获取用户输入的页数
    num_pages = int(input('请输入要爬取的页数:'))
    # 爬取指定页数的内容
    data_div = []
    for page in range(1, num_pages + 1):
        # jl=548,这里是要搜索的城市,在网页中自己看,我选的是广东
        url = f'https://sou.zhaopin.com/?jl=548&kw=数据分析&p={page}'
        page_text = requests.get(url=url, headers=headers).text
        tree = etree.HTML(page_text)
        div_list = tree.xpath('//*[@id="positionList-hook"]/div/div[@class="joblist-box__item clearfix"]')
        print(f'第{page}页开始爬取')
        if not div_list:    # 输入的数足够大,可以爬完所有的数据,没有数据自动跳出(最多好像是34页)
            # 如果当前页没有数据,则跳出循环
            break
        for div in div_list:
            job = div.xpath('./a/div[1]/div[1]/span/@title')
            job = job[0] if job else '' 判断空值,不跳过会报错

            workcopany = div.xpath('./a/div[1]/div[2]/span/text()')
            workcopany = workcopany[0] if workcopany else ''

            salary = div.xpath('./a/div[2]/div[1]/p/text()')
            salary = salary[0] if salary else ''

            place = div.xpath('./a/div[2]/div[1]/ul/li[1]/text()')
            place = place[0] if place else ''

            experience = div.xpath('./a/div[2]/div[1]/ul/li[2]/text()')
            experience = experience[0] if experience else ''

            education = div.xpath('./a/div[2]/div[1]/ul/li[3]/text()')
            education = education[0] if education else ''

            job_type = div.xpath('./a/div[2]/div[2]/span[1]/text()')
            job_type = job_type[0] if job_type else ''

            scale = div.xpath('./a/div[2]/div[2]/span[2]/text()')
            scale = scale[0] if scale else ''

            describe = div.xpath('./a/div[3]/div[1]/div/text()')

            ahref = div.xpath('./a/@href')  # 岗位链接
            ahref = ahref[0] if ahref else ''
            describe_str = '、'.join(describe)
            data_lis = [job, workcopany, salary, place, experience, education, job_type, scale, describe_str, ahref]
            data_div.append(data_lis)
# 保存到excel
data = pd.DataFrame(data_div, columns=['职位', '公司名称', '薪水', '地点', '经验', '学历', '公司类型', '公司规模', '岗位标签', '链接'])
# 将数据框保存为CSV文件
data.to_csv('广东数据分析岗位.csv', index=False, encoding='utf-8', decimal=",")
print('爬取完成!!!')

这里使用了7个xpath,个人觉得看起来舒服点。


最后

可以爬取多个城市的csv文件,拼接起来

import pandas as pd
import numpy as np
data1 = pd.read_csv('广东数据分析岗位.csv')
data2 = pd.read_csv('海南数据分析岗位.csv')
result = pd.concat([data1, data2], axis=0)
result.to_csv('广东海南数据分析岗位表.csv', index=False)

参考来源:工作台 - Heywhale.com

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值