提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
每年都有招聘信息,我们可以通过编写一个爬虫程序来获取这些信息,从而了解招聘情况。
提示:以下是本篇文章正文内容,下面案例可供参考
一、说明
二、使用步骤
1.导入
代码如下(示例):
import requests
from lxml import etree
import pandas as pd
if __name__ == '__main__':
headers = {
'User-Agent': '',
'Cookie': ''
}
2.读取每一页数据
代码如下(示例):
# 获取用户输入的页数
num_pages = int(input('请输入要爬取的页数:'))
# 爬取指定页数的内容
data_div = []
for page in range(1, num_pages + 1):
# jl=548,这里是要搜索的城市,在网页中自己看,我选的是广东
url = f'https://sou.zhaopin.com/?jl=548&kw=数据分析&p={page}'
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
div_list = tree.xpath('//*[@id="positionList-hook"]/div/div[@class="joblist-box__item clearfix"]')
print(f'第{page}页开始爬取')
if not div_list: # 输入的数足够大,可以爬完所有的数据,没有数据自动跳出(最多好像是34页)
# 如果当前页没有数据,则跳出循环
break
for div in div_list:
job = div.xpath('./a/div[1]/div[1]/span/@title')
job = job[0] if job else '' 判断空值,不跳过会报错
workcopany = div.xpath('./a/div[1]/div[2]/span/text()')
workcopany = workcopany[0] if workcopany else ''
salary = div.xpath('./a/div[2]/div[1]/p/text()')
salary = salary[0] if salary else ''
place = div.xpath('./a/div[2]/div[1]/ul/li[1]/text()')
place = place[0] if place else ''
experience = div.xpath('./a/div[2]/div[1]/ul/li[2]/text()')
experience = experience[0] if experience else ''
education = div.xpath('./a/div[2]/div[1]/ul/li[3]/text()')
education = education[0] if education else ''
job_type = div.xpath('./a/div[2]/div[2]/span[1]/text()')
job_type = job_type[0] if job_type else ''
scale = div.xpath('./a/div[2]/div[2]/span[2]/text()')
scale = scale[0] if scale else ''
describe = div.xpath('./a/div[3]/div[1]/div/text()')
ahref = div.xpath('./a/@href') # 岗位链接
ahref = ahref[0] if ahref else ''
describe_str = '、'.join(describe)
data_lis = [job, workcopany, salary, place, experience, education, job_type, scale, describe_str, ahref]
data_div.append(data_lis)
# 保存到excel
data = pd.DataFrame(data_div, columns=['职位', '公司名称', '薪水', '地点', '经验', '学历', '公司类型', '公司规模', '岗位标签', '链接'])
# 将数据框保存为CSV文件
data.to_csv('广东数据分析岗位.csv', index=False, encoding='utf-8', decimal=",")
print('爬取完成!!!')
这里使用了7个xpath,个人觉得看起来舒服点。
最后
可以爬取多个城市的csv文件,拼接起来
import pandas as pd
import numpy as np
data1 = pd.read_csv('广东数据分析岗位.csv')
data2 = pd.read_csv('海南数据分析岗位.csv')
result = pd.concat([data1, data2], axis=0)
result.to_csv('广东海南数据分析岗位表.csv', index=False)
参考来源:工作台 - Heywhale.com