python3爬虫学习笔记
文章平均质量分 91
龙王.*?
向来心是看客心,奈何人是剧中人。
展开
-
利用requests库获取cookie的两种方式
第一种:from fake_useragent import UserAgentimport requestsdef get_Cookies0(): ua = UserAgent().ie #随机获取请求头 headers = {'User-Agent':ua} url = 'https://www.lagou.com/jobs/list_python?' ...原创 2020-03-08 21:52:27 · 26391 阅读 · 2 评论 -
利用fake_useragent生成随机请求头
介绍简介:UserAgent是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬取网站数据时,频繁更换UserAgent可以避免触发相应的反爬机制。fake-useragent对频繁更换UserAgent提供了很好的支持,可谓防反扒利器。安装:pip install fake-useragent简单使用 生成随机请求头 >>> from fa...原创 2020-01-10 17:04:07 · 864 阅读 · 0 评论 -
爬虫笔记(十四)——BeautifulSoup库
Beautifulsoup库:该库是python语言写的,主要功能是将html、xml格式的数据对象解析成“标签树”,并进行遍历和维护,即可以从网页抓取数据。借鉴的html是妹子图网站的源代码http://www.meizitu.com/安装sudo apt-get install Python-bs4pip install beautifulsoup4导入模块fr...翻译 2018-08-10 23:15:59 · 359 阅读 · 0 评论 -
爬虫笔记(十三)——Xpath的使用
学习查阅手册HTML示例代码:text = '''<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="lin...翻译 2018-08-08 22:01:04 · 536 阅读 · 0 评论 -
利用pytesser3识别字符验证码
安装Tesseract-Ocrpytesser3包是用来操控Tesseract-Ocr实现字符识别。首先需要安装Tesseract-Ocr这个开源字符识别引擎。各个环境下安装方式不同。Windows下,可在我的资源下下载压缩包并解压;Linux下下载输入指令sudo apt-get install tesseract-orc sudo apt-get install libtesser...原创 2019-04-04 22:01:47 · 597 阅读 · 0 评论 -
浏览器下使用Xpath
有时候为了提取数据的调试便利,我们也可以直接在浏览器中进行Xpath提取。首先我们在指定页面打开F12,点击console,进入代码编写模块。如下所示:比如我们要将热门的十个城市用Xpath在浏览器上提取出来,应该怎么做呢?这里就要用到一点js的知识。代码如下:a = $x("//div[@class='hot']/div[@class='bottom']/ul[@class=...原创 2019-04-01 17:39:30 · 2377 阅读 · 0 评论 -
可用User-Agent集合
网页OperaMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60Opera/8.0 (Windows NT 5.1; U; en)Mozilla/5.0 (Windows NT 5.1; ...转载 2019-04-02 10:03:59 · 1755 阅读 · 2 评论 -
python爬虫——破解滑动验证码
滑动验证码的破解是验证码类中唯一一个不需要涉及深度学习的一类反爬措施。它完全可以依靠python的一些包来进行破解。下面例举下要用的模块。pillow:处理图片 request:获取图片 selenium:模拟浏览器的行为 random:取随机数 io:模拟文件存储 re:正则匹配 time:时间模块,用到时间等待功能这里以虎嗅网为例,虎嗅网用的滑动验证码是由极验提供的。下面...原创 2019-04-27 16:25:23 · 9621 阅读 · 4 评论 -
爬虫笔记(十二)——浏览器伪装技术
为什么要进行浏览器伪装技术? 有一些网站为了避免爬虫的恶意访问,会设置一些反爬虫机制,对方服务器会对爬虫进行屏蔽。常见的饭爬虫机制主要有下面几个:1. 通过分析用户请求的Headers信息进行反爬虫2. 通过检测用户行为进行反爬虫,比如通过判断同一个IP在短时间内是否频繁访问对应网站等进行分析3. 通过动态页面增加爬虫的爬取难度,达到反爬虫的目的 第一种反爬虫机制...翻译 2018-07-25 20:34:22 · 5473 阅读 · 0 评论 -
爬虫笔记(三)——HTTP协议请求实战
如果要进行客户端与服务器端之间的消息传递,我们可以使用HTTP协议请求进行。 HTTP协议请求主要分为6种类型,各类型的主要作用如下:GET请求:GET请求会通过URL网址传递信息,可以直接在URL中写上要传递的信息,也可以由表单进行传递。如果使用表单进行传递,这表单中的信息会自动转为URL地址中的数据,通过URL地址传递。 POST请求:可以向服务器提交数据,是一种比较主流也比较安全的数据...翻译 2018-07-16 13:03:53 · 604 阅读 · 0 评论 -
爬虫笔记(五)——异常处理代码框架
异常主要分为两类,一类是URLError,一类是HTTPError。在异常处理中,我们常常使用try.......except.......语句,try主要执行主要代码,在except捕获异常信息,并进行相应的异常处理。一般来说,产生URLError的原因有以下几点:连接不上服务器 远程URL不存在 无网络 触发了HTTPError异常故可以看出URLError是HTTPError的父...翻译 2018-07-16 21:27:55 · 553 阅读 · 0 评论 -
爬虫笔记(六)——如何写正则表达式详解
什么是正则表达式? 正则表达式(Regular Expression)是一种文本模式,在编写处理字符串的程序或网页时,经常会有查找符合某些规则的字符串的需求。正则表达式就是用于描述这些规则的工具,换句话说,正则表达式就是记录文本规则的代码。我们将分别从原子、元子符、模式修正符、贪婪模式与懒惰模式等方面进行介绍,代码引进re模块。这篇博客主要讲如何写正则表达式,下篇再介绍关于正则表达式的函...翻译 2018-07-17 14:16:22 · 912 阅读 · 0 评论 -
爬虫笔记(七)——正则表达式常见函数
常见的正则表达式函数有四个,分别是re.match()、re.search()、全局匹配函数、re.sub()。一、re.match()函数re.match()函数是从源字符串的起始位置开始匹配一个模式,其使用格式为re.match(pattern,string,flag),其中pattern代表对应的正则表达式,string代表源字符串,flag是可选参数,代表对应的标志位,可以是模式修...翻译 2018-07-17 21:46:18 · 180 阅读 · 0 评论 -
爬虫笔记(八)——例子匹配解析
一、匹配.com或.cn为后缀的url网址# -*- coding:UTF-8 -*-import restring = "<a href='http://www.baidu.com'>百度首页</a>"pattern = "[a-z|A-Z]+://[^\s]+[.cn|.com]"result = re.search(pattern, string)p...原创 2018-07-18 21:23:42 · 386 阅读 · 0 评论 -
爬虫笔记(十一)——认识cookie
什么是cookie? 在爬虫的使用中,如果涉及登录等操作时,经常会使用到cookie。简单的来说,我们访问每一个互联网页面,都是通过HTTP协议进行的,而HTTP协议是一个无状态协议,所谓的无状态协议就是无法维持会话之间的状态。比如,仅使用HTTP协议的话,我们登录一个网站的时候,假如登录成功了,但是当我们访问该网站的其他网页时,该登录状态会消失,此时还需要再次登录,只要涉及网页的更新,...原创 2018-07-25 20:11:11 · 290 阅读 · 0 评论 -
爬虫笔记(一)——快速使用urllib库
本人以前用的都是python2.7,但看网上很多教程都是以python3为例的,所以便切换版本,导入urllib、lxml、beautifulsoup4等库。下面介绍下两个版本对urllib库的区别,方便以前使用python2.7的能很快适应python3版本。在Python2.x中,分为Urllib库和Urllin2库,Python3.x之后都合并到Urllib库中。...翻译 2018-07-15 12:45:26 · 329 阅读 · 0 评论 -
爬虫笔记(二)——浏览器的模拟(Headers属性)
有的时候,我们无法爬取一些网页,会出现403错误,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么如果我们向爬取这些网页的信息,应该怎么办呢? 可以设置一些Headers信息,模拟成浏览器去访问这些网站,此时,就能够解决这个问题了。接下来我们来找找自己浏览器的Headers属性。 1.首先打开任意网页,按下F12,并选择网络(network)...翻译 2018-07-15 21:03:50 · 12974 阅读 · 0 评论 -
爬虫笔记(十)——学会使用Fiddler
Fiddler是一个常见的抓包分析软件,同时我们可以利用它详细地对HTTP请求进行分析,并模拟对应的HTTP请求。为什么使用Fiddler软件? 网络爬虫是自动爬取网页的程序,在爬取的过程中必然涉及客户端和服务器端之间的通信,自然也需要发送一些HTTP请求,并接收服务器返回的结果。在一些稍复杂的网络请求中,我们直接看网址变化是看不出规律的,此时如果要进行自动化爬取网页,就必须要通过程序...原创 2018-07-21 15:34:15 · 2364 阅读 · 0 评论 -
爬虫笔记(四)——代理服务器的设置
使用同一个IP去爬取同一个网站上的网页,久了之后会被该网站服务器屏蔽。这个时候我们就可以使用代理服务器。 (使用代理服务器去爬取某个网站的内容的时候,在对方的网站上,显示的不是我们真实的IP地址,而是代理服务器的IP地址)。给大家推荐一个网址:http://www.xicidaili.com/,这上面有免费的代理Ip。我们尽量找验证时间比较短的,这样的成功率会比较大。我们可...翻译 2018-07-16 20:08:29 · 2419 阅读 · 2 评论