02-27 提高scrapy爬取效率的方法

最新推荐文章于 2024-07-29 16:20:24 发布

withxinxin

最新推荐文章于 2024-07-29 16:20:24 发布

阅读量907

点赞数

分类专栏：知识要点

本文链接：https://blog.csdn.net/weixin_46400833/article/details/114157468

版权

知识要点专栏收录该内容

118 篇文章 1 订阅

订阅专栏

1、增加并发（增加并发线程数）

scrapy默认开启的线程为32个，可以适当增加。在setting文件中修改为 100

2、降低日志级别

在运行scrapy时会有大量日志信息输出，为了减少日志信息的输出，降低CPU的使用率，可以设置

输出错误日志 LOG_LEVEL='ERROR'  或者 'INFO'

3、禁止cookie

如果不是真的需要cookie，则在爬取数据时可以禁止cookie，从而减少CPU的使用率。在
setting中写 COOKIES_ENABLED=False

4、禁止重试：

对失败的HTTP进行重新请求会降低爬取速度，因此可以禁止重试；设置 RETRY_ENABLED=False

5、减少下载超时

如果对一个非常慢的连接进行爬取，减少下载超时可以能让卡主的连接快速被放弃，从而提升
效率。设置： DOWNLOAD_TIMEUT=10 （超时时间为10s）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

withxinxin

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

提高scrapy的爬取速度

james的博客

06-11

1万+

我们在使用scrapy框架进行爬取的时候，爬取速度会显著影响我们的效率。

使用scrapy爬取

memoirs_pz的博客

12-02

1702

了解scrapy框架，使用scrapy爬取酒店评论 python2.7.15 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。 scrapy分为以下几个工作部件引擎(Scrapy Engine)，用来处理整个系统的数据流处理，触发事务(框架核心)。调度器(Scheduler)，用来接受引擎发过来的请求，放入队...

参与评论您还未登录，请先登录后发表或查看评论

scrapy效率提升篇

weixin_33744854的博客

12-28

624

scrapy基于twisted异步IO框架，downloader是多线程的。但是，由于python使用GIL（全局解释器锁，保证同时只有一个线程在使用解释器），这极大限制了并行性，在处理运算密集型程序的时候，Python的多线程效果很差，而如果开多个线程进行耗时的IO操作时，Python的多线程才能发挥出更大的作用。（因为Python在进行长时IO操作时会释放GIL）所以简单的说，scrapy是多...

高效数据抓取：Scrapy框架详解

最新发布

Z_suger7的博客

07-29

522

Scrapy是一个为了爬取网站数据、提取结构性数据而编写的爬虫框架。它支持异步处理，能够快速抓取大量网页，并且易于扩展。Scrapy使用Twisted这个事件驱动的网络引擎，可以处理大量的并发请求，从而提高数据抓取的效率。首先，定义你想要抓取的数据结构。这一步与抓取网页内容相同。python# 定义你想要抓取的字段# 其他字段...

scrapy 速度优化

favomj的博客

04-14

5319

主要有三个设置项来控制下载器的容量：CONCURRENT_REQUESTS，CONCURRENT_REQUESTS_PER_DOMAIN和 CONCURRENT_REQUESTS_PER_IP。第一个设置项提供了一个粗略的控制，无论如何不会有超过CONCURRENT_REQUESTS数目的请求被并发下载。在另一方面，如果你的目标域名只是一个或者少数的几个，那么CONCURRENT_REQUESTS...

scrapy框架提升抓取效率

学习python

09-18

566

关于这个起始主要是在setting里设置，分为两种，一、改变已经存在的设置，二、增加必备的设置，本来想自己总结一下的，结果看到这个总结的已经不错了，就在这里分享给大家，如果有更多的补充的可以留言。 1、增加并发线程开启数量　　settings配置文件中，修改CONCURRENT_REQUESTS = 100,默认为32，可适当增加； 2、降低日志级别　　运行scrapy时会产生大量日志...

scrapy提高爬取速度

徐代龙的技术专栏

11-06

8700

scrapy在单机跑大量数据的时候，在对settings文件不进行设置的时候，scrapy的爬取速度很慢，再加上多个页面层级解析，往往导致上万的数据可能爬取要半个小时之久，这还不包括插入数据到数据库的操作。下面是我在实验中测试并且验证爬取速度大幅度提升，不过前提你要注意到你爬取的目标网站有没有反IP的可能。 settings文件设置以下参数： DOWNLOAD_DELAY = 0 CONCURR...

Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发

05-27

8. **分布式爬取**：Scrapy支持通过Scrapy Cluster或Scrapy RT进行分布式爬取，提高爬取效率。这种方式可以将任务分发到多台机器上，共同处理大量数据。 9. **处理反爬虫机制**：微博等网站通常有反爬虫策略，如IP...

python爬虫知识----爬取大量高效的数据----scrapy框架（五）

斗师——Ace

01-11

1326

添加小程序，兑换各种视频教程/数据资源。 1. scrapy框架：爬虫爬取数据时，scrapy封装了一些基础的东西，是使用Twisted异步网络框架，更高效率的爬虫。 2. scrapy的下载：pip(pip.exe) install scrapy。中文文档：http://www.scrapyd.cn/doc/。在window系统下，还需要安装pip(pip.exe) install py...

scrapy爬取大文件方法

07-04

6. **异步处理**：Scrapy默认使用Twisted库进行异步操作，这有助于处理大量并发请求，提高效率。对于大文件，可以考虑利用异步IO进一步优化下载速度。 7. **Item Pipeline的优化**：对于大文件，可能需要在Item ...

scrapy 爬取东方财富网源码

05-02

Scrapy基于Twisted异步网络库，能够处理大量的并发请求，从而提高爬取效率。它主要由以下几个核心组件组成： 1. **Spider**：蜘蛛是Scrapy中的核心部分，负责定义爬取规则和解析网页内容。在本项目中，我们需要创建...

scrapy-redis-master_scrapy-redis_juzi1122_scrapy_

10-01

3. **Scrapy-Redis架构**: Scrapy-Redis通过将待爬取URLs和请求放入Redis队列，实现多个Scrapy爬虫实例并行工作，从而提高整体爬取效率。其主要组件包括：Request Queue（请求队列）、Scheduler（调度器）、Spider ...

提高Scrapy的爬取速度

weixin_43038752的博客

05-23

1556

解决Scrapy性能问题——案例五（Item并发太多导致溢出）

04-27

8356

症状：爬虫对于每个Response都产生了多个Item，系统的吞吐量比期望的要低，并且可能会出现和前一个案例相同的下载器开/关现象。示例：这里我们假设有1000个请求，每个返回的页面有100个Item，响应时间为0.25s，Item在pipeline中的处理时间为3s。分别把CONCURRENT_ITEMS设置成从10到150的值来运行爬虫：for concurrent_items in 10 20

【爬虫】如何进一步的提高Scrapy爬虫的爬取速度？

Jack

06-12

538

配置并发连接选项 settings.py文件选项说明 CONCURRENT_REQUESTS Downloader最大并发请求下载数量，默认32 CONCURRENT_ITEMS Item Pipeline 最大并发Item 处理数量，默认100 CONCURRENT_REQUESTS_PER_DOMAIN 每个目标域名最大的并发请求数量，默认8 CONCURRENT_REQUESTS_PER_IP 每个目标 IP 最大的并发请求数量，默认0，非0有效

安装scrapy速度慢解决方法速度贼快

m0_64758133的博客

02-28

710

使用终端pip安装scrapy龟速解决方案：使用清华源下载清华园链接 https://mirrors.tuna.tsinghua.edu.cn/help/pypi/ win+R打开cmd 输入pip清华源回车再安装scrapy 安装scrapy命令： pip install scrapy

Scrapy 请求并发数设置

weixin_43394129的博客

07-29

531

　　并发数可以在scrapy项目的settings.py文件中设置。　　1.CONCURRENT_ITEMS 　　　　是指：最大并发项目数，默认100个。　　　　2.CONCURRENT_REQUESTS 　　　　是指：下载器将执行的并发(即同时)请求的最大数量，默认16个。　　3.CONCURRENT_REQUESTS_PER_DOMAIN 　　　　是指：任何单个域执行的并发(即同时)请...

python爬虫scrapy爬取网站

06-28

使用Scrapy爬取网站有以下几个步骤： 1. 安装Scrapy框架我们需要提前安装好Python和Scrapy框架。安装Scrapy比较方便，可以通过pip来安装，命令为：pip install scrapy。 2. 创建scrapy爬虫工程我们需要使用...