虫之吻-CSDN博客

原创突破喜马拉雅的 xm-sign 验证，爬取有声读物

首先找到 xm-sign 参数的js代码，断点调试，如下:可见， xm-sign 的值是由函数u.getSign()生成的，直接进入该函数的内部看看再次断点调试，可以发现，这里的 t 是喜马拉雅的服务器时间戳，由 time 这个包生成的，地址是：https://www.ximalaya.com/revision/time；而 e 就是现在的时间戳；两个小括号是100以内随机整数；花括号{h...

2019-12-27 10:51:23 2734

原创京东模拟登录，自动完成滑块验证

最近在研究滑块验证码这一块，自然也玩了一把京东，发现之前的轨迹方程并不可用，需要自己慢慢调试，找到合适的参数。这种滑块认证的成功率不可能是100%，所以要写个循环，让认证失败的时候重新调用。先看效果：链接：https://v.qq.com/x/page/e0924ylqkir.html(1) 滑块缺口距离识别京东的验证码背景图和模板图大概各10张；缺口位置变化的使用 cv2 库，用...

2019-10-12 00:47:11 7661 7

原创 Pyppeteer库之四：Pyppeteer的页面操作(下)

执行自定义的 JS 脚本Pyppeteer Page 对象提供了一系列 evaluate 方法，你可以通过他们来执行一些自定义的 JS 代码，主要提供了下面三个 API：(1) page.evaluate ( pageFunction [, …args] ) ，返回 pageFunction 执行的结果，pageFunction 表示要在页面执行的函数或表达式， args 表示传入给 page...

2019-10-12 00:32:11 7397 2

原创 Pyppeteer库之三：Pyppeteer的页面操作(上)

访问网站goto (url: str, options: dict = None, **kwargs: Any ) -> Optional[Response]options:timeout(int): 跳转等待时间，单位是毫秒, 默认是30秒, 传 0 表示无限等待。waitUntil(str|List[str])：满足什么条件认为页面跳转完...

2019-10-11 18:58:31 8783 1

原创 Pyppeteer库之二：Pyppeteer的浏览器对象

启动器Launcher启动方式： launch :启动链接一个新的浏览器 content :链接已打开的浏览器，便于崩溃后重链1 launch()pyppeteer.launch(options: dict = None, **kwargs: Any) -> Browser启动一个新的浏览器，返回 Browser 类。接受字典或键值对的关键字配置参数。常用参数：h...

2019-10-11 11:09:13 3192 1

原创 Pyppeteer库之一：Pyppeteer库介绍

Pyppeteer 是 Puppeteer 的 Python 实现。Puppeteer 是谷歌开发的一个 Node 库，它提供了一个高级API 来通过 DevTools 协议控制 Chromium 或 Chrome。Pyppeteer 默认以 headless模式运行，但是可以通过修改配置文件运行“有头”模式。能做什么？生成页面的截图和 PDF。抓取 SPA (单页应用程序)并渲染页面...

2019-10-11 10:36:20 1442 1

原创抖音字体反爬

什么是字体反爬？所谓的字体反爬就是网站一些关键字替换成自己设计的字体，这样用浏览器访问网站的时候会加载这套字体，因此在浏览器中显示是正常的字体；而在源码中这些关键字是乱码的，根本无法识别，采集下来是无用的信息使用字体反爬的例子：抖音、大众点评、58等，如下是抖音的解决字体反爬，以抖音为例步骤：1 提取抖音个人主页链接个人主页—>右上角—>分享—>复制链接，在浏览器...

2019-10-10 20:13:08 1028

原创常用的反爬虫

常见反爬虫介绍：① 通过Headers反爬虫从用户请求的Headers反爬虫是最常见的反爬虫策略很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过② 基于用户行为反爬虫部分网站是通过检测用...

2019-10-10 19:43:37 331

原创文件形式存储爬虫数据

—— 如果需要将数据存储到文件，为了数据的可读性，可以按行写入。常用的文件类型：txt、csv、Excel文本文件的写入和读取例子：import json"""字符串写入"""for i in range(10): with open('a.txt', 'a') as file: file.write(str(i)+'\n')"""字典或列表转换成js...

2019-10-10 18:48:31 1243

原创 CSS选择器

什么是CSS选择器？CSS(Cascading Style Sheets)是一种语言，它被用来描述 HTML 和 XML 文档的表现。CSS使用选择器来为页面元素绑定属性。CSS 选择器常用语法：表达式匹配结果* 通用元素选择器匹配任何元素E 标签选择器匹配所有使用 E 标签的元素.info class 选择器匹配所有 class 属性中包含 i...

2019-10-10 18:01:32 184

原创 Xpath语法

什么是 Xpath？解析 XML 语言的一种语言（HTML其实是XML的子级），广泛用于解析 HTML 数据几乎所有语言都能使用 xpath , 比如 Java 和 C 语言Xpath 语法层级：/ 直接子级 //跳级属性：@直接属性访问 contains()包含属性访问文本：text()按文本访问索引：[1]第一个、[2] 第二个……...

2019-10-10 17:38:33 882 2

原创 Requests库的使用

Requests库是python最简单易用的HTTP库。get 请求requests.get(url, params=None, **kwargs)，返回 Response 对象；params参数为字典或字节序列，作为参数增加到url中；kwargs常用参数如下：headers(dict)：字典，HTTP请求头cookies(dict|CookieJar)：字典或CookieJar...

2019-10-10 16:50:05 389

原创爬虫的原理

1 什么是爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做2 爬虫的本质模拟浏览器打开网页，获取网页中想要的那部分数据浏览器打开网页的过程如下：请求的过程：浏览器先向地址栏中的url发起请求，并获取相应在返回的响应内容（html）中...

2019-10-10 15:14:59 563

weizhen11的博客