Python爬虫，爬取51job上有关大数据的招聘信息

最新推荐文章于 2024-04-08 06:39:03 发布

菜菜码

最新推荐文章于 2024-04-08 06:39:03 发布

阅读量1.8k

点赞数 5

分类专栏：爬虫练习文章标签：大数据 python 爬虫数据分析

本文链接：https://blog.csdn.net/weixin_45369171/article/details/113487642

版权

本文介绍了Python爬虫初学者如何使用selenium爬取51job网站上的大数据相关职位信息。文章详细讲解了分析网址、导入selenium库、规避监测、设置浏览器对象和伪装头部的步骤，并提供了完整的代码示例，展示了运行后的数据结果。

摘要由CSDN通过智能技术生成

Python爬虫，爬取51job上有关大数据的招聘信息

爬虫初学者，练手实战

最近在上数据收集课，分享一些代码。

分析所要爬取的网址

https://search.51job.com/list/000000,000000,0000,00,9,99,+关键词+,2,"+str(页数)+".html

导入selenium包

from selenium import webdriver#导入selenium包
from lxml import etree
from time import sleep
import xlwt
import requests

监测的规避

from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])

使用谷歌浏览器的方法实例化一个浏览器对象，传入谷歌浏览器驱动程序

brs=webdriver.Chrome(executable_path='C:\\Users\\v\\Desktop\\86chromedriver.exe')#执行此语句可以打开一个浏览器

伪装头部

如何获取自己电脑浏览器的伪装头部

打开浏览器
按F12，或者在浏览器空白处右击，点击检查（以谷歌为例）
查找自己的伪装头部

headers={
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.38 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.38"}

完整代码

from selenium import webdriver#导入selenium包
from lxml import etree
from time import sleep
import xlwt#写表格模块
import requests
#监测的规避
from selenium.webdriver