scrapy-redis分布式爬虫的总结,scrapy爬虫部署总结

本文介绍了scrapyd服务程序的使用,包括如何发布、删除和管理爬虫项目。深入讲解了Scrapy框架的start_requests()和parse()方法,以及Request的相关参数。还探讨了防止爬虫被反爬的策略,如动态设置User-Agent和禁用Cookies。此外,文章详细阐述了RedisSpider的特性,强调了redis_key的重要性,并提供了启动RedisSpider的步骤,包括在Redis数据库中添加start_urls。最后,文章列出了配置scrapyd运行环境所需的Python库和安全组设置。
摘要由CSDN通过智能技术生成

scrapyd相关介绍

是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本
scrapyd-client
发布爬虫需要使用另一个专用工具,就是将代码打包为EGG文件,其次需要将EGG文件上传到远程主机上这些操作需要scrapyd-client来帮助我们完成

Scrapy构架图
在这里插入图片描述

创建爬虫文件
scrapy startproject jobboleproject

新建爬虫文件
scrapy genspider jobbole jobbole.com

  • init() : 初始化爬虫名字和start_urls列表
  • start_requests() 调用make_requests_from url():生成Requests对象交给Scrapy下载并返回response
  • parse():
    解析response,并返回Item或Requests(需指定回调函数)。

Request先关参数介绍

  • url: 就是需要请求,并进行下一步处理的url
  • callback: 指定该请求返回的Response,由那个函数来处理。
  • method: 请求一般不需要指定,默认GET方法,可设置为"GET", “POST”, &
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值