![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scrapy
Mpc1996
这个作者很懒,什么都没留下…
展开
-
如何增加scrapy运行效率
增加并发:默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别:在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:LOG_LEVEL = ‘INFO’禁止cookie:...原创 2019-11-28 19:38:41 · 258 阅读 · 0 评论 -
scrapyd部署成功但项目无法运行的问题
问题描述用scrapyd部署爬虫项目,在命令行部署成功但是在浏览器中输入127.0.0.1:6800进入scrapyd可视化界面,然后进入jobs中,发现竟然没有刚才上传的项目进入spiderkeeper进行打包部署,项目一直阻塞,不运行这个问题一直查了两天百度,最后自己去scrapyd运行的命令行,往上翻日志,其中有一条error,说的是缺少pywin32模块,然后就安装了这个模块...原创 2019-11-28 16:37:40 · 1379 阅读 · 3 评论 -
Scrapy-deploy命令windows无法识别的问题解决方案
在使用pip成功安装scrapyd、scrapyd-client、spider-keeper后出现scrapyd-deploy不是内部或外部命令这个问题在百度查找解决方案,普遍都是使用一个bat文件对路径进行映射,让windows能正常启动该插件。其具体的代码为:@echo off"python.exe的路径" "scrapyd-deploy的路径"%*但是加完映射之后又出现了...原创 2019-11-27 17:27:31 · 364 阅读 · 0 评论 -
SpiderKeeper
scrapy、scrapyd、spiderkeeper之间的关系之前有一篇文章是讲解scrapyd的使用,但是scrapyd是纯命令行操作,显然很麻烦,现介绍一个开源免费使用的可视化系统。环境准备pip install scrapypip install scrapydpip install scrapyd-clientpip install spiderkeeper首先在终端...原创 2019-11-22 23:38:40 · 299 阅读 · 0 评论 -
Scrapyd-Client
scrapyd-clientscrapyd通过HTTP接口控制任务的运行,但是部署过程有一点不方便,需要先打包Egg文件然后上传,这样比较繁琐。使用scrapy-client来完成部署过程,就十分的方便。Scrapyd-Client 为了方便 Scrapy 项目的部署,提供两个功能:将项目打包成 Egg 文件。将打包生成的 Egg 文件通过 addversion.json 接口部署到...原创 2019-11-22 22:32:40 · 446 阅读 · 0 评论 -
Scrapyd
1. 什么是ScrapydScrapyd 是一个运行 Scrapy 爬虫的服务程序,它提供一系列 HTTP 接口来帮助我们部署、启动、停止、删除爬虫程序。Scrapyd 支持版本管理,同时还可以管理多个爬虫任务,利用它我们可以非常方便地完成 Scrapy 爬虫项目的部署任务调度。2. 安装Scrapyd可以在pycharm的setting下载也可以直接在命令行pip install scr...原创 2019-11-22 22:17:47 · 478 阅读 · 0 评论 -
Scrapy Shell
为什么要使用 scrapy shell?Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。但是对于一个较大的 Scrapy 项目去测试正则的结果是否正确,就过于麻烦了,这时候,我们要使用 scrapy shell 去调试,测试成功后,在拷贝到我们的项目中就可以了。启动...原创 2019-11-21 17:36:25 · 139 阅读 · 0 评论