scrapy
斜光
转战语雀
展开
-
scrapy(六)scrapy_redis
scrapy 是一个通用的爬虫框架 分布式爬虫 共享队列 所有请求位于队列之中 如何实现队列共享? 队列位于内存中,redis是一种内存数据库 不同电脑可访问redis这个内存数据库 管道是数据的存储 基于scrapy实现分布式扩展的组件scrapy_redis scrapy_redis重写了scrapy组件 1、介绍 scrapy_redis是一个基于Redis的Scrapy组件,用于scrap...原创 2019-11-12 15:58:49 · 442 阅读 · 0 评论 -
使用scrapy-redis(redis)出现"由于目标计算机积极拒绝,无法连接。"解决方案
安装Redis-x64-3.2.100 .msi(可百度找国内下载地址) 下载地址:https://github.com/MicrosoftArchive/redis/releases(挂v) 无法下载私信我 打开安装目录下的redis-cli.exe文件启动服务 ...原创 2019-11-01 21:40:32 · 1918 阅读 · 0 评论 -
scrapy(五)接入selenium
反爬的一些情况 数据的不是返回的网页源代码 请求参数后返回的参数是经过加密的 一个页面的请求只能找到一次 selenium自动化测试工具,驱动浏览器的功能,会等待浏览器执行js代码完毕,再获取数据 selenium的使用 1.1 安装 pip install selenium -i https://pypi.doubanio.com/simple 1.2 安装驱动 谷歌浏览器 火狐浏览器 将...原创 2019-10-31 21:02:04 · 167 阅读 · 0 评论 -
scrapy(二)Spider与CrawlSpider
3.3 Spider源码 初始的Requests请求来自于start_urls原创 2019-10-30 21:54:03 · 278 阅读 · 0 评论 -
scrapy(三)Requests/Response/日志处理/模拟登陆
1、Requests 1.1、自动去重 class ExampleSpider(scrapy.Spider): name = 'example' # 表示域名范围 allowed_domains = ['baidu.com',] # 初始化域名不会考虑范围 start_urls = ['https://www.taobao.com'] def ...原创 2019-10-30 21:53:22 · 133 阅读 · 0 评论 -
scrapy(四)中间件
中间件可以对请求或响应进行定制化修改 下载中间件 requests(下载器)无法执行js代码 下载器本身不支持代理 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架。 它是一个轻量级的底层系统,用来全局修改scrapy的request和response。 scrapy框架中的下载中间件,是实现了特殊方法的类。 scrapy系统自带的中间件被放在DOWNL...原创 2019-10-30 21:53:04 · 100 阅读 · 0 评论 -
scrapy练手项目(二)CrawlSpider
1、创建项目 注意区分默认的爬虫文件 scrapy genspider -t crawl [文件名] [起始url] 2、分析url设置规则 class JianshuSpider(CrawlSpider): name = 'jianshu' # allowed_domains = ['jianshu.com'] start_urls = ['https://www.jia...原创 2019-10-30 21:52:47 · 262 阅读 · 0 评论 -
scrapy练手项目1全书网小说信息
items文件 import scrapy class QuanshuItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrapy.Field() author = scrapy.Field() link = ...原创 2019-10-25 11:18:47 · 186 阅读 · 0 评论 -
scrapy (1)框架的安装与使用
requests 多线程 回调函数callback request.get() # 阻塞 scrapy框架自带并发、去重、调度 安装 Windows 1.在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应的Twisted的版本文件 2. 在命令行进入到Twisted的目录 执行pip install 加Twisted文件名 3.执行pip ins...原创 2019-10-25 11:19:38 · 109 阅读 · 0 评论