爬虫目的:爬取某直聘的岗位信息,如果是新岗位,就发送邮件至指定邮箱。
重点:
- selenium的使用以及如何避免被检测。
- pyquery解析数据的规则。
import time,random
import redis
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from pyquery import PyQuery as pq
from mylibrary import send_mail
rs_conn=redis.Redis(host="localhost", port='6379', db=5, password='888888', decode_responses=True) # redis数据库连接
# options.add_argument("--proxy-server=http:/115.218.0.233:9000")
# options.add_argument("--disable-blink-features=AutomationControlled") #告诉chrome去掉了webdriver痕迹
# options.add_experimental_option('excludeSwitches', ['enable-automation'])
# options.add_experimental_option('useAutomationExtension', False)
def validate_ip(): #如果被反爬,就手动点选图片进行验证
driver=webdriver.Chrome()
driver.set_window_