scrapy框架，scrapy-redis(使scrapy能做分布式)

最新推荐文章于 2022-07-14 15:53:58 发布

.松鼠小白.

最新推荐文章于 2022-07-14 15:53:58 发布

阅读量300

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/weixin_45410462/article/details/103058623

版权

本文详细介绍了Scrapy框架的组件、开发流程，包括创建项目、设置robots协议、创建spider、提取数据等步骤。此外，讲解了如何使用scrapy-redis实现分布式爬虫，通过redis管理爬取URL，实现多台计算机协同工作，以提高爬取效率。

摘要由CSDN通过智能技术生成

scrapy框架 scrapy-redis

- scrapy框架
- scrapy-redis

scrapy框架

1.框架图
在这里插入图片描述
2.组件

3.开发流程
1、创建一个项目
在这里插入图片描述
2、将scrapy项目放到pycharm，目录结构如下：

如果不按上面的方式，运行命令会发生找不到命令的情况。

3、创建一个spider
在这里插入图片描述
4、在settings.py中，修改robots协议

5.在新建好的spider中，初始化start_urls列表，告诉scrapy要下载的网页有哪些？

6、添加请求，请求头需要在settings.py配置文件中设置。

7、在spider文件中的parse方法里测试是否能够获取到页面数据。
Scrapy的启动方法：scrapy crawl maoyan_spider
在这里插入图片描述
8.在items.py中，定义我们要爬取的字段是那些。

9、在parse方法中实例化一个item

10、从页面提取数据。

补充：

  Response.xpath返回的就是一个selector对象，selector					  对象可以继续调用xpath方法提取元素。
  可以通过以下两个方法，从selector对象中获取字符串内容。
  extract_first()--相当于text[0]
  extract()---取出返回的整个list中的每一个的字符串内容。
  scrapy crawl maoyan_spider