自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 突破喜马拉雅的 xm-sign 验证,爬取有声读物

首先找到 xm-sign 参数的js代码,断点调试,如下:可见, xm-sign 的值是由函数u.getSign()生成的,直接进入该函数的内部看看再次断点调试,可以发现,这里的 t 是喜马拉雅的服务器时间戳,由 time 这个包生成的,地址是:https://www.ximalaya.com/revision/time;而 e 就是现在的时间戳;两个小括号是100以内随机整数;花括号{h...

2019-12-27 10:51:23 2734

原创 京东模拟登录,自动完成滑块验证

最近在研究滑块验证码这一块,自然也玩了一把京东,发现之前的轨迹方程并不可用,需要自己慢慢调试,找到合适的参数。这种滑块认证的成功率不可能是100%,所以要写个循环,让认证失败的时候重新调用。先看效果:链接:https://v.qq.com/x/page/e0924ylqkir.html(1) 滑块缺口距离识别京东的验证码背景图和模板图大概各10张;缺口位置变化的使用 cv2 库,用...

2019-10-12 00:47:11 7661 7

原创 Pyppeteer库之四:Pyppeteer的页面操作(下)

执行自定义的 JS 脚本Pyppeteer Page 对象提供了一系列 evaluate 方法,你可以通过他们来执行一些自定义的 JS 代码,主要提供了下面三个 API:(1) page.evaluate ( pageFunction [, …args] ) ,返回 pageFunction 执行的结果,pageFunction 表示要在页面执行的函数或表达式, args 表示传入给 page...

2019-10-12 00:32:11 7397 2

原创 Pyppeteer库之三:Pyppeteer的页面操作(上)

访问网站goto (url: str, options: dict = None, **kwargs: Any ) -> Optional[Response]options:timeout(int): 跳转等待时间,单位是毫秒, 默认是30秒, 传 0 表示无限等待。waitUntil(str|List[str]):满足什么条件认为页面跳转完...

2019-10-11 18:58:31 8783 1

原创 Pyppeteer库之二:Pyppeteer的浏览器对象

启动器Launcher启动方式: launch :启动链接一个新的浏览器 content :链接已打开的浏览器,便于崩溃后重链1 launch()pyppeteer.launch(options: dict = None, **kwargs: Any) -> Browser启动一个新的浏览器,返回 Browser 类。接受字典或键值对的关键字配置参数。常用参数:h...

2019-10-11 11:09:13 3192 1

原创 Pyppeteer库之一:Pyppeteer库介绍

Pyppeteer 是 Puppeteer 的 Python 实现。Puppeteer 是谷歌开发的一个 Node 库,它提供了一个高级API 来通过 DevTools 协议控制 Chromium 或 Chrome。Pyppeteer 默认以 headless模式运行,但是可以通过修改配置文件运行“有头”模式。能做什么?生成页面的截图和 PDF。抓取 SPA (单页应用程序)并渲染页面...

2019-10-11 10:36:20 1442 1

原创 抖音字体反爬

什么是字体反爬?所谓的字体反爬就是网站一些关键字替换成自己设计的字体,这样用浏览器访问网站的时候会加载这套字体,因此在浏览器中显示是正常的字体;而在源码中这些关键字是乱码的,根本无法识别,采集下来是无用的信息使用字体反爬的例子:抖音、大众点评、58等,如下是抖音的解决字体反爬,以抖音为例步骤:1 提取抖音个人主页链接个人主页—>右上角—>分享—>复制链接,在浏览器...

2019-10-10 20:13:08 1028

原创 常用的反爬虫

常见反爬虫介绍:① 通过Headers反爬虫从用户请求的Headers反爬虫是最常见的反爬虫策略很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过② 基于用户行为反爬虫部分网站是通过检测用...

2019-10-10 19:43:37 331

原创 文件形式存储爬虫数据

—— 如果需要将数据存储到文件,为了数据的可读性,可以按行写入。常用的文件类型:txt、csv、Excel文本文件的写入和读取例子:import json"""字符串写入"""for i in range(10): with open('a.txt', 'a') as file: file.write(str(i)+'\n')"""字典或列表转换成js...

2019-10-10 18:48:31 1243

原创 CSS选择器

什么是CSS选择器?CSS(Cascading Style Sheets)是一种语言,它被用来描述 HTML 和 XML 文档的表现。CSS使用选择器来为页面元素绑定属性。CSS 选择器常用语法:表达式匹配结果* 通用元素选择器匹配任何元素E 标签选择器匹配所有使用 E 标签的元素.info class 选择器匹配所有 class 属性中包含 i...

2019-10-10 18:01:32 184

原创 Xpath语法

什么是 Xpath?解析 XML 语言的一种语言(HTML其实是XML的子级),广泛用于解析 HTML 数据几乎所有语言都能使用 xpath , 比如 Java 和 C 语言Xpath 语法层级:/ 直接子级    //跳级属性:@直接属性访问    contains()包含属性访问文本:text()按文本访问索引:[1]第一个、[2] 第二个……...

2019-10-10 17:38:33 882 2

原创 Requests库的使用

Requests库是python最简单易用的HTTP库。get 请求requests.get(url, params=None, **kwargs),返回 Response 对象;params参数为字典或字节序列,作为参数增加到url中;kwargs常用参数如下:headers(dict):字典,HTTP请求头cookies(dict|CookieJar):字典或CookieJar...

2019-10-10 16:50:05 389

原创 爬虫的原理

1 什么是爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做2 爬虫的本质模拟浏览器打开网页,获取网页中想要的那部分数据浏览器打开网页的过程如下:请求的过程:浏览器先向地址栏中的url发起请求,并获取相应在返回的响应内容(html)中...

2019-10-10 15:14:59 563

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除