python爬虫
虫之吻
这个作者很懒,什么都没留下…
展开
-
京东模拟登录,自动完成滑块验证
最近在研究滑块验证码这一块,自然也玩了一把京东,发现之前的轨迹方程并不可用,需要自己慢慢调试,找到合适的参数。这种滑块认证的成功率不可能是100%,所以要写个循环,让认证失败的时候重新调用。先看效果:链接:https://v.qq.com/x/page/e0924ylqkir.html(1) 滑块缺口距离识别京东的验证码背景图和模板图大概各10张;缺口位置变化的使用 cv2 库,用...原创 2019-10-12 00:47:11 · 7710 阅读 · 7 评论 -
Pyppeteer库之四:Pyppeteer的页面操作(下)
执行自定义的 JS 脚本Pyppeteer Page 对象提供了一系列 evaluate 方法,你可以通过他们来执行一些自定义的 JS 代码,主要提供了下面三个 API:(1) page.evaluate ( pageFunction [, …args] ) ,返回 pageFunction 执行的结果,pageFunction 表示要在页面执行的函数或表达式, args 表示传入给 page...原创 2019-10-12 00:32:11 · 7484 阅读 · 2 评论 -
Pyppeteer库之三:Pyppeteer的页面操作(上)
访问网站goto (url: str, options: dict = None, **kwargs: Any ) -> Optional[Response]options:timeout(int): 跳转等待时间,单位是毫秒, 默认是30秒, 传 0 表示无限等待。waitUntil(str|List[str]):满足什么条件认为页面跳转完...原创 2019-10-11 18:58:31 · 8850 阅读 · 1 评论 -
Pyppeteer库之二:Pyppeteer的浏览器对象
启动器Launcher启动方式: launch :启动链接一个新的浏览器 content :链接已打开的浏览器,便于崩溃后重链1 launch()pyppeteer.launch(options: dict = None, **kwargs: Any) -> Browser启动一个新的浏览器,返回 Browser 类。接受字典或键值对的关键字配置参数。常用参数:h...原创 2019-10-11 11:09:13 · 3233 阅读 · 1 评论 -
Pyppeteer库之一:Pyppeteer库介绍
Pyppeteer 是 Puppeteer 的 Python 实现。Puppeteer 是谷歌开发的一个 Node 库,它提供了一个高级API 来通过 DevTools 协议控制 Chromium 或 Chrome。Pyppeteer 默认以 headless模式运行,但是可以通过修改配置文件运行“有头”模式。能做什么?生成页面的截图和 PDF。抓取 SPA (单页应用程序)并渲染页面...原创 2019-10-11 10:36:20 · 1468 阅读 · 1 评论 -
突破喜马拉雅的 xm-sign 验证,爬取有声读物
首先找到 xm-sign 参数的js代码,断点调试,如下:可见, xm-sign 的值是由函数u.getSign()生成的,直接进入该函数的内部看看再次断点调试,可以发现,这里的 t 是喜马拉雅的服务器时间戳,由 time 这个包生成的,地址是:https://www.ximalaya.com/revision/time;而 e 就是现在的时间戳;两个小括号是100以内随机整数;花括号{h...原创 2019-12-27 10:51:23 · 2772 阅读 · 0 评论 -
抖音字体反爬
什么是字体反爬?所谓的字体反爬就是网站一些关键字替换成自己设计的字体,这样用浏览器访问网站的时候会加载这套字体,因此在浏览器中显示是正常的字体;而在源码中这些关键字是乱码的,根本无法识别,采集下来是无用的信息使用字体反爬的例子:抖音、大众点评、58等,如下是抖音的解决字体反爬,以抖音为例步骤:1 提取抖音个人主页链接个人主页—>右上角—>分享—>复制链接,在浏览器...原创 2019-10-10 20:13:08 · 1055 阅读 · 0 评论 -
常用的反爬虫
常见反爬虫介绍:① 通过Headers反爬虫从用户请求的Headers反爬虫是最常见的反爬虫策略很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过② 基于用户行为反爬虫部分网站是通过检测用...原创 2019-10-10 19:43:37 · 352 阅读 · 0 评论 -
文件形式存储爬虫数据
—— 如果需要将数据存储到文件,为了数据的可读性,可以按行写入。常用的文件类型:txt、csv、Excel文本文件的写入和读取例子:import json"""字符串写入"""for i in range(10): with open('a.txt', 'a') as file: file.write(str(i)+'\n')"""字典或列表转换成js...原创 2019-10-10 18:48:31 · 1334 阅读 · 0 评论 -
CSS选择器
什么是CSS选择器?CSS(Cascading Style Sheets)是一种语言,它被用来描述 HTML 和 XML 文档的表现。CSS使用选择器来为页面元素绑定属性。CSS 选择器常用语法:表达式匹配结果* 通用元素选择器匹配任何元素E 标签选择器匹配所有使用 E 标签的元素.info class 选择器匹配所有 class 属性中包含 i...原创 2019-10-10 18:01:32 · 201 阅读 · 0 评论 -
Xpath语法
什么是 Xpath?解析 XML 语言的一种语言(HTML其实是XML的子级),广泛用于解析 HTML 数据几乎所有语言都能使用 xpath , 比如 Java 和 C 语言Xpath 语法层级:/ 直接子级 //跳级属性:@直接属性访问 contains()包含属性访问文本:text()按文本访问索引:[1]第一个、[2] 第二个……...原创 2019-10-10 17:38:33 · 897 阅读 · 2 评论 -
Requests库的使用
Requests库是python最简单易用的HTTP库。get 请求requests.get(url, params=None, **kwargs),返回 Response 对象;params参数为字典或字节序列,作为参数增加到url中;kwargs常用参数如下:headers(dict):字典,HTTP请求头cookies(dict|CookieJar):字典或CookieJar...原创 2019-10-10 16:50:05 · 414 阅读 · 0 评论 -
爬虫的原理
1 什么是爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做2 爬虫的本质模拟浏览器打开网页,获取网页中想要的那部分数据浏览器打开网页的过程如下:请求的过程:浏览器先向地址栏中的url发起请求,并获取相应在返回的响应内容(html)中...原创 2019-10-10 15:14:59 · 580 阅读 · 0 评论