Python爬虫,爬取51job上有关大数据的招聘信息
爬虫初学者,练手实战
最近在上数据收集课,分享一些代码。
分析所要爬取的网址
https://search.51job.com/list/000000,000000,0000,00,9,99,+关键词+,2,"+str(页数)+".html
导入selenium包
from selenium import webdriver#导入selenium包
from lxml import etree
from time import sleep
import xlwt
import requests
监测的规避
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])
使用谷歌浏览器的方法实例化一个浏览器对象,传入谷歌浏览器驱动程序
brs=webdriver.Chrome(executable_path='C:\\Users\\v\\Desktop\\86chromedriver.exe')#执行此语句可以打开一个浏览器
伪装头部
如何获取自己电脑浏览器的伪装头部
- 打开浏览器
- 按F12,或者在浏览器空白处右击,点击检查(以谷歌为例)
- 查找自己的伪装头部
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.38 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.38"}
完整代码
from selenium import webdriver#导入selenium包
from lxml import etree
from time import sleep
import xlwt#写表格模块
import requests
#监测的规避
from selenium.webdriver