目标网站:
这个网站如果不登录的话 就会一直跳验证码,注册个账号 登录一下 拿到cookie,获取.ASPXAUTH后面的值,在selenium发起请求的时候带上
登录之后 可以拿到一页列表的数据
进入详情页后,会发现一个公司会有多个年份的报告,写个循环,逐个获取
获取的数据保存到mongo中
内容部分保存的是html格式,附件保存的是链接地址
完整代码:
import time
import re
from bs4 import BeautifulSoup
from selenium import webdriver
from pymongo import MongoClient
browser = webdriver.Chrome('./chromedriver')
browser.get("http://www.ipe.org.cn/IndustryRecord/Regulatory.html?keycode=4543j9f9ri334233r3rixxxyyo12")
# 登录
cookie = {'name':'.ASPXAUTH','value&