Scrapy
文章平均质量分 62
EUNC
IT搬砖大师
展开
-
安装tesserocr的报错RuntimeError: Failed to init API, possibly an invalid tessdata path解决办法
前置环境windows 10 操作系统tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe 安装路径在C:\Program Files\Tesseract-OCRtesserocr-2.4.0-cp37-cp37m-win_amd64.whl 安装方法:pip install ./tesserocr-2.4.0-cp37-cp37...原创 2020-01-07 20:29:16 · 4697 阅读 · 2 评论 -
Scrapy爬取页面错误原因汇总
url = response.selector.xpath(’//*[@class=‘lbf-pagination-item-list’]//li[9]/a/@href’).extract()[0]print(url)yield scrapy.Request(url, callback=self.parse)如上图代码,scrapy 爬虫过程中,在实现翻页时,偶然遇见如下报错:Missin...原创 2018-11-01 00:58:30 · 3002 阅读 · 0 评论 -
Scrapy数据流的工作流程
Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的:1、爬虫引擎获得初始请求开始抓取。2、爬虫引擎开始请求调度程序,并准备对下一次的请求进行抓取。3、爬虫调度器返回下一个请求给爬虫引擎。4、引擎请求发送到下载器,通过下载中间件下载网络数据。5、一旦下载器完成页面下载,将下载结果返回给爬虫引擎。6、引擎将下载器的响应通过中间件返回给爬虫进行处理。7、爬虫处理响应,并...原创 2018-11-02 10:48:22 · 1872 阅读 · 0 评论 -
python爬虫——多线程+协程(threading+gevent)
以下摘自这篇文章:https://blog.csdn.net/qq_23926575/article/details/76375337在爬虫中广泛运用的多线程+协程的解决方案,亲测可提高效率至少十倍以上。本文既然提到了线程和协程,我觉得有必要在此对进程、线程、协程做一个简单的对比,了解这三个程之间的区别。以下摘自这篇文章:http://www.cnblogs.com/guokaixin/p/...转载 2018-11-03 00:55:41 · 1080 阅读 · 0 评论 -
Scrapy 导出数据 cvs, json
scrapy crawl douban_spider -o jData.jsonscrapy crawl douban_spider -o cData.csv settings中:优先级数越小, 表示优先级高原创 2018-12-07 21:28:53 · 3156 阅读 · 0 评论 -
爬虫基础回顾
1、基础知识1.1 http的过程先是在对应的浏览器里面输入url,通过浏览器来发送请求到目标服务器(url指向的服务器),目标服务会根据请求,发送回响应给浏览器,浏览器对相应进行解析。1.1.1 请求(1)请求方式:get()/post()(2)请求url:url有参数,一般是在‘?’后面的是参数,有多个参数的话,通过‘&’连接起来(3)请求头:User-Agen...原创 2018-12-07 21:42:37 · 3171 阅读 · 0 评论