selenium 爬取公共环境研究中心 www.ipe.org.cn

最新推荐文章于 2022-12-26 07:52:22 发布

Mandy。

最新推荐文章于 2022-12-26 07:52:22 发布

阅读量2.5k

点赞数

本文链接：https://blog.csdn.net/weixin_43751840/article/details/93493239

版权

目标网站：
在这里插入图片描述

这个网站如果不登录的话就会一直跳验证码，注册个账号登录一下拿到cookie，获取.ASPXAUTH后面的值，在selenium发起请求的时候带上

登录之后可以拿到一页列表的数据

进入详情页后，会发现一个公司会有多个年份的报告，写个循环，逐个获取
在这里插入图片描述

获取的数据保存到mongo中
在这里插入图片描述
内容部分保存的是html格式，附件保存的是链接地址

完整代码：

import time
import re
from bs4 import BeautifulSoup
from selenium import webdriver
from pymongo import MongoClient

browser = webdriver.Chrome('./chromedriver')
browser.get("http://www.ipe.org.cn/IndustryRecord/Regulatory.html?keycode=4543j9f9ri334233r3rixxxyyo12")

# 登录
cookie = {'name':'.ASPXAUTH','value&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mandy。

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
selenium 爬取公共环境研究中心 www.ipe.org.cn

目标网站：这个网站如果不登录的话就会一直跳验证码，注册个账号登录一下拿到cookie，获取.ASPXAUTH后面的值，在selenium发起请求的时候带上登录之后可以拿到一页列表的数据进入详情页后，会发现一个公司会有多个年份的报告，写个循环，逐个获取获取的数据保存到mongo中内容部分保存的是html格式，附件保存的是链接地址完整代码：import timeimpor...
复制链接

扫一扫