![](https://img-blog.csdnimg.cn/20200221195026625.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
网络爬虫
文章平均质量分 65
多线程爬虫和分布式爬虫,代码解析等
AI study
只有充实的每一天才能配得上完美的自己!
展开
-
【爬虫教程】Scrapy框架07
7.1框架架构框架模块功能:spider:负责处理所有的respose,解析数据,并将url提交给引擎,再次进入scheduler,也是程序最开始调用的位置 engine:负责四个模块之间的通信和数据传递...原创 2020-02-22 10:00:12 · 106 阅读 · 0 评论 -
【爬虫案例】笔趣阁全网爬取
该项目主要是为了巩固以前学过的知识点,此项目为综合类的爬虫项目。技能要点自定义多线程爬虫,线程内部包含了协程。 代理池的使用 将爬取到的内容存放到mongodb数据库中爬虫代码结果展示...原创 2020-02-20 23:05:05 · 624 阅读 · 0 评论 -
【爬虫教程】生产者消费者模式06
acquirereleasewait:将当前线程处于等待状态并且释放锁,可以被其他线程使用notify和notify_all函数唤醒,会继续等待上锁,上锁后继续执行代码。notify:通知正在等待的线程,默认时第一个等待的线程notify_all:通知所有正在等待的线程,notify和notify_all不会释放锁,并且在release之前调用这两个函数只会去通知,但不会...原创 2020-02-20 17:43:56 · 144 阅读 · 0 评论 -
【爬虫教程】多线程爬虫05
目录2.1工作原理2.1.1原理示意图2.1.2队列对象2.2队列锁和线程锁2.3线程池2.1工作原理2.1.1原理示意图2.1.2队列对象queue是python中的标准库,可以直接from queue import Queue引用;队列是线程间最常用的交换数据的形式。对于资源,加锁是个重要的环节。Queue,是线程安全的,因此在满足使用条件下,建议使用队...原创 2020-02-19 11:47:21 · 147 阅读 · 0 评论 -
【爬虫教程】动态页面抓取04
4.1Charles数据抓取工具Charles使用指南4.2Selenium自动化工具4.2.1基础入门pip3.6 install selenium 版本对照表1 版本对照表2 驱动地址 使用文档地址 浏览器版本查看地址 robots.txt4.2.2Selenium使用4.2.2.1浏览器对象操作import timefrom selenium i...原创 2020-02-19 00:09:44 · 197 阅读 · 0 评论 -
【爬虫教程】数据解析03
3.1re(正则)3.1.1符号'.':1个任意字符,除换行符 '?':[0,1]任意字符 '+':[1:] 任意字符 '*':[0,:] 任意字符 \s:空字符; \S:非空字符 \w:字母数字下划线 \W:非字母数字下划线 \d:任意数字 \D:任意非数字 ^:匹配字符串的开头(加上这个就和match一样) $:匹配字符串的结尾 '[]':匹配方括号中的任意字符...原创 2020-02-18 22:36:12 · 467 阅读 · 0 评论 -
【爬虫教程】普通页面数据抓取02
目录2.1requests库2.1.1get请求2.1.2post通过Cookie携带信息2.1.3Post通过Session携带信息2.1.4设置代理2.2urllib库2.3小结2.1requests库2.1.1get请求携带参数发送get请求import requestsurl='http://httpbin.org/get'HEADERS=...原创 2020-02-18 15:56:06 · 169 阅读 · 0 评论 -
【爬虫教程】爬虫入门01
1.1爬虫入门1.1.1了解爬虫这世上本没有爬虫,只是因为有了web,才有了爬虫,目前市面上说的爬虫基本上是围绕web网页的,甚至很多技术栈和框架也是围绕web技术趋势来发展的,但只是其一,目前也有很多围绕app来做的爬虫,当然实现起来也就更难了,其实在谈数据采集之前,我们应该先思考另外一个问题,为何采集爬取数据,只有回答了这个问题,才能理解为什么爬虫这个行业这么火爆。围绕数据采集有以...原创 2020-02-18 15:05:18 · 339 阅读 · 0 评论 -
【爬虫案例】西祠代理爬取与检验
为了方式爬虫被封,想自己做一个代理池,因为没有代理池,只能单线程爬取,而且使用time.sleep()进行了暂停,爬取位置后为后续我们做代理池做准备.代码import timeimport csvfrom lxml import etreefrom urllib import request,parseHeaders={ 'User-Agent': 'Mozilla/5...原创 2020-02-15 16:43:04 · 948 阅读 · 0 评论 -
【爬虫策略】反爬策略
一.识别和防止pachong想要进行反爬就得先识别pachong,识别pachong的措施.方法一:频率限制根据https日志或者流量进行分析,如果在单位时间内某个ip访问的频率超过了某个特定的阈值,我们就认为它是pachong方法二:headers参数检测在请求的数据包中我们检测user-agent或者referer参数,顺便看一下referer参数是不是来自主页,如果不是来自主页,那...原创 2019-12-13 16:19:56 · 292 阅读 · 0 评论 -
【爬虫案例】酷狗音乐海报爬取
代码:import requestsimport osfrom urllib import requestfrom lxml import etreeHEADERS={ 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Ge...原创 2020-02-10 10:14:50 · 328 阅读 · 0 评论