scrapy-redis分布式爬虫的总结，scrapy爬虫部署总结

最新推荐文章于 2022-03-29 19:25:34 发布

风尘年华

最新推荐文章于 2022-03-29 19:25:34 发布

阅读量354

点赞数

分类专栏： scrapy 文章标签：爬虫总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43993443/article/details/101169393

版权

本文介绍了scrapyd服务程序的使用，包括如何发布、删除和管理爬虫项目。深入讲解了Scrapy框架的start_requests()和parse()方法，以及Request的相关参数。还探讨了防止爬虫被反爬的策略，如动态设置User-Agent和禁用Cookies。此外，文章详细阐述了RedisSpider的特性，强调了redis_key的重要性，并提供了启动RedisSpider的步骤，包括在Redis数据库中添加start_urls。最后，文章列出了配置scrapyd运行环境所需的Python库和安全组设置。

摘要由CSDN通过智能技术生成

scrapyd相关介绍

是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本
scrapyd-client
发布爬虫需要使用另一个专用工具，就是将代码打包为EGG文件，其次需要将EGG文件上传到远程主机上这些操作需要scrapyd-client来帮助我们完成

Scrapy构架图
在这里插入图片描述

创建爬虫文件
scrapy startproject jobboleproject

新建爬虫文件
scrapy genspider jobbole jobbole.com

init() : 初始化爬虫名字和start_urls列表
start_requests() 调用make_requests_from url():生成Requests对象交给Scrapy下载并返回response
parse():
解析response，并返回Item或Requests（需指定回调函数）。

Request先关参数介绍

url: 就是需要请求，并进行下一步处理的url
callback: 指定该请求返回的Response，由那个函数来处理。
method: 请求一般不需要指定，默认GET方法，可设置为"GET", “POST”, &

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。