python 安装Scrapy库和创建Scrapy项目过程及文件含义及Scrapy介绍及使用

不停歇向前^-^蜗牛

已于 2022-04-06 17:55:21 修改

阅读量627

点赞数 1

分类专栏： python&逆向爬虫文章标签： python 爬虫架构中间件分布式

于 2022-04-06 17:53:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48321071/article/details/123995135

版权

python&逆向爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

安装Scrapy库

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

安装Scrapy库其它情况出现

如果安装成功, 直接去创建项目即可. 如果报错可能需要安装VC++14.0库才可以. 安装的时候一定不要死记安装步骤, 要观察报错信息. 根据报错信息进行一点点的调整, 多试几次pip. 直至success.

总共有五种安装Scrapy库方法

安装wheel
```
pip install wheel
```
下载twisted安装包, https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-brjig6rA-1649236994971)(image-20210803144429440.png)]
1. 用wheel安装twisted.
```
pip install Twisted‑21.7.0‑py3‑none‑any.whl
```
安装pywin32
```
pip install pywin32
```
安装scrapy
```
pip install scrapy
```

总之, 最终你的控制台输入scrapy version能显示版本号. 就算成功了

有些电脑会用到五种安装Scrapy库方法

创建Scrapy项目过程及文件含义（如下图）

在这里插入图片描述

在Scrapy下创建一个.py

在这里插入图片描述

Scrapy项目下文件含义

在这里插入图片描述

Scrapy 框架的简介

为了爬取网站数据而编写的一款应用框架,所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板
该框架提供了高性能的异步下载，解析和持久化等功能

框架示意图

在这里插入图片描述

整个工作流程

爬虫中起始的url构造成request对象, 并传递给调度器.
引擎从调度器中获取到request对象. 然后交给下载器
由下载器来获取到页面源代码, 并封装成response对象. 并回馈给引擎
引擎将获取到的response对象传递给spider, 由spider对数据进行解析(parse). 并回馈给引擎
引擎将数据传递给pipeline进行数据持久化保存或进一步的数据处理.
在此期间如果spider中提取到的并不是数据. 而是子页面url. 可以进一步提交给调度器, 进而重复步骤2的过程

解释工作流程各各部分作用

引擎(engine)

scrapy的核心, 所有模块的衔接, 数据流程梳理.
调度器(scheduler)

本质上这东西可以看成是一个队列. 里面存放着一堆我们即将要发送的请求. 可以看成是一个url的容器. 它决定了下一步要去爬取哪一个url. 通常我们在这里可以对url进行去重操作.
下载器(downloader)

它的本质就是用来发动请求的一个模块. 小白们完全可以把它理解成是一个get_page_source()的功能. 只不过这货返回的是一个response对象.
爬虫(spider)

这是我们要写的第一个部分的内容, 负责解析下载器返回的response对象.从中提取到我们需要的数据.
管道(pipeline)

这是我们要写的第二个部分的内容, 主要负责数据的存储和各种持久化操作.

总结：经过上述的介绍来看, scrapy其实就是把我们平时写的爬虫进行了四分五裂式的改造. 对每个功能进行了单独的封装, 并且, 各个模块之间互相的不做依赖. 一切都由引擎进行调配. 这种思想希望你能知道–解耦. 让模块与模块之间的关联性更加的松散. 这样我们如果希望替换某一模块的时候会非常的容易. 对其他模块也不会产生任何的影响.

不停歇向前^-^蜗牛

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python 安装Scrapy库和创建Scrapy项目过程及文件含义及Scrapy介绍及使用

安装Scrapy库pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy安装Scrapy库其它情况出现如果安装成功, 直接去创建项目即可. 如果报错可能需要安装VC++14.0库才可以. 安装的时候一定不要死记安装步骤, 要观察报错信息. 根据报错信息进行一点点的调整, 多试几次pip. 直至success.总共有五种安装Scrapy库方法安装wheelpip install wheel下载twisted安装包,
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。