Python爬虫,爬取51job上有关大数据的招聘信息

本文介绍了Python爬虫初学者如何使用selenium爬取51job网站上的大数据相关职位信息。文章详细讲解了分析网址、导入selenium库、规避监测、设置浏览器对象和伪装头部的步骤,并提供了完整的代码示例,展示了运行后的数据结果。
摘要由CSDN通过智能技术生成

Python爬虫,爬取51job上有关大数据的招聘信息

爬虫初学者,练手实战

最近在上数据收集课,分享一些代码。

分析所要爬取的网址

https://search.51job.com/list/000000,000000,0000,00,9,99,+关键词+,2,"+str(页数)+".html

导入selenium包

from selenium import webdriver#导入selenium包
from lxml import etree
from time import sleep
import xlwt
import requests

监测的规避

from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])

使用谷歌浏览器的方法实例化一个浏览器对象,传入谷歌浏览器驱动程序

brs=webdriver.Chrome(executable_path='C:\\Users\\v\\Desktop\\86chromedriver.exe')#执行此语句可以打开一个浏览器

伪装头部

如何获取自己电脑浏览器的伪装头部

  1. 打开浏览器
  2. 按F12,或者在浏览器空白处右击,点击检查(以谷歌为例)
    检查
  3. 查找自己的伪装头部
    获取伪装头部
headers={
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.38 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.38"}

完整代码

from selenium import webdriver#导入selenium包
from lxml import etree
from time import sleep
import xlwt#写表格模块
import requests
#监测的规避
from selenium.webdriver 
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值