![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
小白_橙子
这个作者很懒,什么都没留下…
展开
-
python + selenium的使用 - mac可能出现的问题
1、安装seleniumpip install Selenium2、下载浏览器驱动(我个人使用chrom,这里针对chrom说明)https://sites.google.com/a/chromium.org/chromedriver/downloads(开启代理)首先查看对应浏览器的版本,下载对应的驱动3、下载后进行解压,将其放在mac的 /usr/local/bin/ 目录下即可4、这时启动文件可能出现问题PermissionError: [Errno 13] Permissio原创 2020-10-13 10:12:32 · 570 阅读 · 0 评论 -
基础爬虫
基础爬虫简单爬取网页信息,未进行过滤代码演示import urllib.requestfrom fake_useragent import UserAgentimport urllib.parseUA = UserAgent()base_url = "https://www.lagou.com/jobs/positionAjax.json?"# 参数为中文需要转码se_url ...原创 2019-01-05 13:21:51 · 815 阅读 · 0 评论 -
Scrapy框架
Scrapy框架***Scrapy***是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy 使用了Twisted['twɪstɪd]异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求,加快开发速度。原理图scrapy全局命令# 创建一个项目scrapy startprojec...原创 2019-01-18 19:24:23 · 160 阅读 · 0 评论 -
分布式爬虫scrapy-redis
分布式爬虫Scrapy-Redis分布式爬虫是由一组通过网络进行通信、为了完成共同的爬虫任务而协调工作的计算机节点组成的系统。分布式爬虫是将多台主机组合起来,共同完成一个爬取任务,大大提高爬取效率。调度器扩展多个,对应的下载器也扩展多个,但是保证爬取的队列是惟一的,也就是共享爬取队列。并且应该要保证,一个调度器调度一个请求以后,其他调度器不会重复调度这个请求。Scrapy-Redis...原创 2019-01-24 18:49:21 · 285 阅读 · 0 评论 -
scrapy进阶
scrapy进阶itemItem是保存爬取数据的容器,它的使用方法和字典类似。不过,相比字典,Item提供了额外的保护机制,可以避免拼写错误或者定义字段错误import scrapyclass Minimp4SpiderItem(scrapy.Item): # define the fields for your item here like: # 保存的键 ...原创 2019-01-21 12:52:20 · 565 阅读 · 0 评论 -
多线程爬虫
多线程爬虫全局解释器锁GIL 控制着Python的线程能否得到CPU的计算资源,正是这个锁来控制同一时刻只有一个线程能够运行。多线程的编码方式可以分为两种:第一种是面向对象式编程,第二种是面向函数式编程。队列的类型:先进先出 queue.Queue(maxsize=0)后进先出 queue.LifoQueue(maxsize=0)优先队列 queue...原创 2019-01-16 22:32:20 · 2097 阅读 · 0 评论 -
CrawlSpider全网爬虫
CrawlSpider全网爬虫CrawlSpider是继承了Spider的全站爬虫类。CrawlSpider类定义了一些规则(rule)来提供跟进提取出来的网址link的方便的机制,更适合从爬取的网页中获取新的link并继续爬取的工作。产生一个crawlspiderscrapy genspider -t crawl 爬虫名LinkExtractors(链接提取器)在响应中可以使用xp...原创 2019-01-22 17:33:53 · 2016 阅读 · 0 评论 -
IP池设计思考(面试点)
IP池设计思考(面试点)面试中IP代理池的几个问题:IP怎么剔除的通过设置失败次数, 超过失败次数就会删除, 可以自定义失败次数.免费代理多久抓取一次10min抓取一次, 代码实现可在ProxyRefreshSchedule.py中查看。每过10min就去目标网站抓取一次。有些网站不更新,当然如果是自己买的IP代理不用考虑代理不会更新的情况,因为买的IP数量应该是足够的。怎...原创 2019-03-10 11:09:00 · 789 阅读 · 0 评论