第十一章 Scrapy入门：多线程+异步

最新推荐文章于 2023-11-11 09:45:00 发布

VIP文章狮范客

最新推荐文章于 2023-11-11 09:45:00 发布

阅读量5.9k

点赞数 3

分类专栏：爬虫文章标签： python java 大数据 linux django

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47388144/article/details/106623474

版权

在这里插入图片描述

简介

Scrapy 框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。
用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。
(提高请求效率)
Scrapy 使用了Twisted(aiohttp)异步网络框架来处理网络通讯，可以加快下载速度，并且包含了各种中间件接口，可以灵活的完成各种需求。

安装

pip install --upgrade pip
建议首先更新pip 再安装下列依赖库否则可能会遇到诸多错误：

pip install twisted
安装 twisted可能会遇到这样问题
building ‘twisted.test.raiser’ extension
error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools
意思是说缺少C++的一些编译工具

所以这里建议大家直接安装编译好的twisted的whl文件
对应资源下载网址：
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

下载twisted对应版本的whl文件，cp后面是python版本，amd64代表64位，运行命令：
pip install C:\Users\CR\Downloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl
（后边一部分是 whl文件的绝对路径）

lxml之前应该安装过可以略过
pip install lxml

这个安装应该没问题
pip install pywin32

安装scrapy框架
pip install Scrapy

如果中途报错，有TimeOut的字眼，应该是网络问题，重复安装几次就行

当然最省事的还是直接替换安装源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名

知识

整体结构

在这里插入图片描述

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等

Scheduler(调度器):它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，

最低0.47元/天解锁文章

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
7
评论
第十一章 Scrapy入门：多线程+异步

简介Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。(提高请求效率)Scrapy 使用了Twisted(aiohttp)异步网络框架来处理网络通讯，可以加快下载速度，并且包含了各种中间件接口，可以灵活的完成各种需求。安装pip install --upgrade pip建议首先更新pip 再安装下列依赖库否则可能会遇到诸多错误：pip in.
复制链接

扫一扫

专栏目录

狮范客 CSDN认证博客专家 CSDN认证企业博客

码龄4年

20: 原创

40万+: 周排名

175万+: 总排名

4万+: 访问

: 等级

521: 积分

29: 粉丝

39: 获赞

26: 评论

152: 收藏

私信

关注

热门文章

分类专栏

爬虫 14篇
人工智能 1篇
python 5篇

最新评论

第六章 selenium自动化测试工具：天下工具为我所用
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8054223, 请多输出高质量博客, 帮助更多的人
第十一章 Scrapy入门：多线程+异步
螺旋式上升abc: 标题党，踩一个
win10 tensorflow2.2 安装踩坑总结
Arduino小小猴: 同问，我也有这个问题！
第十一章 Scrapy入门：多线程+异步
牛马程序员666: Scrapy只能通过修改或者重写方法实现并发。
第十一章 Scrapy入门：多线程+异步
大数据采集及分析: 改setting文件中启动储存管道才能运行 ITEM_PIPELINES = { # 'JobSpider.pipelines.JobspiderPipeline': 300, "JobSpider.pipelines.JobspiderPipeline":300 }

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。