scrapy（五）接入selenium

最新推荐文章于 2024-06-15 22:48:09 发布

斜光

最新推荐文章于 2024-06-15 22:48:09 发布

阅读量166

点赞数

分类专栏： python爬虫 # scrapy

本文链接：https://blog.csdn.net/weixin_44145258/article/details/102827879

版权

python爬虫同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

scrapy

9 篇文章 0 订阅

订阅专栏

反爬的一些情况

数据的不是返回的网页源代码
请求参数后返回的参数是经过加密的
一个页面的请求只能找到一次

selenium自动化测试工具，驱动浏览器的功能，会等待浏览器执行js代码完毕，再获取数据

常规获取加密数据的操作

在这里插入图片描述

selenium的使用

1.1 安装

pip install selenium -i https://pypi.doubanio.com/simple

1.2 安装驱动

谷歌浏览器
 火狐浏览器
在这里插入图片描述
将下载得到的文件解压放入python目录，能够运行的exe文件
运行代码

from selenium import webdriver

# 打开浏览器
# diver = webdriver.firefox
driver = webdriver.Chrome()

# 打开指定的页面
driver.get('https://www.taobao.com')

在这里插入图片描述
模拟了用户操作的过程

1.3、实际操作

爬取内容，此时请求已经完成，需要自定义中间件

class AreaSpiderSpider(scrapy.Spider):
    name = 'area_spider'
    # allowed_domains = ['ddddd']
    start_urls = ['https://www.aqistudy.cn/historydata/daydata.php?city=%E6%88%90%E9%83%BD&month=201910']

    def parse(self, response):
        # 请求已经完成
        print(response.text)

自定义中间件
在这里插入图片描述
运行程序，得到网页源代码

1.4、无头浏览器

selenium很慢是因为会打开窗口

from selenium import webdriver
from selenium.webdriver.chrome.options import  Options

# 打开浏览器
options = Options()
options.add_argument('----headless')
driver = webdriver.Chrome(chrome_options=options)

# 打开指定的页面
driver.get('https://www.taobao.com')
print(driver.page_source)	# 打印网页源代码

此方法就不需要打开浏览器，能够节省内存

斜光

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy（五）接入selenium

反爬的一些情况数据的不是返回的网页源代码请求参数后返回的参数是经过加密的一个页面的请求只能找到一次selenium自动化测试工具，驱动浏览器的功能，会等待浏览器执行js代码完毕，再获取数据selenium的使用1.1 安装pip install selenium -i https://pypi.doubanio.com/simple1.2 安装驱动谷歌浏览器火狐浏览器将...
复制链接

扫一扫

专栏目录