- 博客(100)
- 资源 (6)
- 问答 (3)
- 收藏
- 关注
原创 爬虫逆向学习(十五):Akamai 3.0反爬分析与sensor-data算法逆向经验
细讲Akamai 3.0反爬分析与sensor-data算法逆向经验
2025-01-14 16:56:32
2596
原创 当我拿出加水印图片,看pyhon几大ocr库的提取效果!
OCR文本识别技术基于图像处理和模式识别原理,通过一系列复杂的算法步骤来实现文字识别。这些步骤通常包括图像预处理、特征提取、字符分类和后处理等。
2025-01-10 12:17:42
1894
2
原创 drissionpage知识整理与某数等反爬产品绕过实战
DrissionPage是一个基于 Python 的网页自动化工具。既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。功能强大,语法简洁优雅,代码量少,对新手友好。
2025-01-08 21:55:52
1652
原创 一文理清JS中获取盒子宽高各方法的差异
这段时间在研究一个反爬产品,环境检测用到了很多个盒子宽高取值方法,如,各个方法取值结果不大相同,在此记录下遇到的方法。
2025-01-01 22:10:25
1816
原创 雷电模拟器如何把整个环境打包给别人
接了一个需求,需要帮别人配置andriod抓包环境,像magisk这种基本都要配置好。没法远程控制,就想到市面上的模拟器应该是可以实现我的需求的。
2024-12-23 10:42:23
445
原创 当你爬着数据,程序突然报JSON格式化异常...(论如何修复异常的JSON)
JSON-Repair是一个用于修复损坏或无效的JSON数据的库。它可以帮助你解决由于格式错误、缺失标记或其他问题导致的JSON数据无法解析的问题。
2024-12-19 09:41:14
522
原创 爬虫逆向学习(十三):某房地产升瑞六了,分享一下破解经验
前不久才攻克了某房地产的瑞四,这两天跑脚本发现破解失败了,打开网址一看,好家伙,升级到瑞六了,卷的很!趁着有时间试试看能不能攻克。
2024-11-19 14:33:45
1519
2
原创 爬虫逆向学习(十二):一个案例入门补环境
补环境其实是补浏览器有而Node没有的环境,即补BOM和DOM的对象,一切环境补的结果都是向浏览器实际结果靠齐,入门补环境只需要记住缺啥补啥这个技巧,当运行提示缺少某个环境,则直接在浏览器运行该环境是啥结果然后补上该结果。
2024-10-16 11:45:28
1195
8
原创 爬虫逆向学习(十一):实战分享反爬机制快速定位与破解
在抓取某个站点时,我们需要找到目标接口,然后确定目标接口所使用的反爬机制,常见反爬机制有`cookie`、`请求头`、`签名校验`等,只有找到它所使用的反爬机制我们才能对点下药。
2024-10-16 10:16:20
802
原创 爬虫逆向学习(九):记录一个集cookie、请求参数、请求体、响应文本加密的站点反爬
一个集cookie、请求参数、请求体、响应文本加密的站点反爬
2024-09-25 16:02:01
712
原创 爬虫逆向学习(七):补环境动态生成某数四代后缀MmEwMD
这篇文章主要是研究如何动态生成后缀参数MmEwMD的,它是在文章爬虫逆向学习(六):补环境过某数四代的基础上进行研究的,代码也是在它基础上增加补点的,且下文破解的接口所需的cookie也可以直接用它的代码得到。
2024-09-23 16:15:57
1601
原创 爬虫逆向学习(六):补环境过某数四代
某数的反爬机制和大致的破解流程已经是被摸透了,某数小白可以根据上面提供的引用博客从上往下逐一阅读,相信看完能让你对它有个整体的了解。下文是在博客爬虫瑞数4案例:网上房地产下进行实战讲解的,本身作者已经讲解的很到位了,在这我就不献丑了。只是在使用作者最后提供的代码调试了很久才通过,便再次记录下踩坑过程,希望对大家有所帮助。
2024-09-11 12:31:47
1815
原创 app逆向抓包技巧:关于混淆后app无法绕过sslpinning的解决方案
app逆向抓包技巧:关于混淆后app无法绕过sslpinning的解决方案
2024-08-18 02:56:50
1185
原创 解決android Studio在导入已有的工程 build 时出现的错误
解決android Studio在导入已有的工程 build 时出现的错误
2024-08-12 00:19:17
495
原创 app逆向抓包技巧:noProxy、vpn、证书单向校验(sslpinning)与双向校验绕过
app逆向抓包技巧:noProxy、vpn与sslpinning检测绕过
2024-08-07 01:40:20
3778
1
原创 app逆向实战:某咨询6.0.4.4版本signature等参数抓包与破解
app逆向实战:某咨询6.0.4.4版本signature等参数抓包与破解
2024-07-29 19:40:44
454
原创 字体反爬万能方案简单版(fontTools+ddddocr),自测能过某茄小说与某招聘网
这里不会从零开始去展示站点字体反爬的破解流程,只是截取了部分混淆文本验证破解成功。一般来说对于自定义字体反爬都是使用fontTools将字体文件转成xml,然后多次对比发现不变的映射规律然后得到映射字典,但根据笔者的过往经验,有些站点的字体文件实在是很难发现不变的规律,搞起来太耗时了。这个时候要是有一个能传入一个字体文件就得到映射的话就完美了,来来来,这就引入正文。
2024-07-13 15:29:49
743
5
原创 附件采集文件类型识别方案
咱们做爬虫的或多或少都会遇到附件下载,一般情况站点提供的附件链接会直接声明文件的类型,但是有些提供的只是一个api,然后触发下载时再返回附件文本,这个时候我们是没法直接知道文件类型的,而我们使用requests下载并存储附件时是必须要定义好它的文件类型的,那有什么解决方案呢?是python内置库,它能映射文件名到 MIME 类型,使用下面命令可以得到文件的MIME 类型。但是研究发现像docx和zip是一样的标识,有些文件还不固定,大家看着用。依赖这个其实可以快速得出文件的类型,但是这个库。
2024-06-12 12:04:41
398
原创 断点调试与插桩方法(以某音a_bogus为例)
以接口```aweme/v1/web/aweme/post/```为例(这是用户作品列表的接口),这个接口是```GET```请求,我们要找到`a_bogus`参数的生成位置。
2024-05-24 14:11:44
754
原创 jadx-gui添加dex文件失败,提示Bad checksum
之前都是使用jadx直接打开的apk文件,要添加dex文件时突然添加失败并报错。也就是会校验dex的checksum,直接关闭会导致dex文件反编译失败。解决方案:查日志后得到关闭校验即可。
2024-05-03 11:32:44
617
原创 python与pycharm如何设置文件夹为源代码根目录
相信大家遇到过下面这种情况当我们在当前项目下引入了其它项目的代码,这是其它项目的包的导入路径是不用于当前项目的,这样导致项目无法正常起来,但是我们又不可能一个个文件去处理,这时可以用下面的方式解决。
2024-04-22 16:39:00
4041
原创 Scrapy与分布式开发:MongoDB安装与快速入门
MongoDB 是一个面向文档的数据库系统,使用 BSON(Binary JSON)格式存储数据,提供了高性能、高可用性和易扩展性。它专为 Web 应用和大数据场景设计,通过简单的数据模型、强大的查询功能和灵活的扩展性,成为现代应用开发的热门选择。
2024-03-09 11:36:18
909
原创 Scrapy与分布式开发(2.8):布隆过滤器原理及应用
**布隆过滤器(Bloom Filter)** 是一种空间效率极高的概率型数据结构,用于测试一个元素是否在一个集合中。它的优点是空间效率和查询时间都远超过一般的算法,缺点是有一定的误识别率和删除困难。
2024-03-05 16:14:54
985
原创 Scrapy与分布式开发(3):Scrapy核心组件与运行机制
Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它使用Python语言编写,并基于异步网络框架Twisted来实现高性能的爬虫。Scrapy最初是为了页面抓取(更确切地说是网络抓取)而设计的,但它也可以用于获取API返回的数据或通用的网络爬虫。
2024-03-05 10:15:42
1458
原创 Scrapy与分布式开发(2.4):bs4+css基本指令和提取方法详解
CSS选择器是网页开发中不可或缺的工具,它们让我们能够精确地定位和选择HTML文档中的元素。在爬虫领域多用于从网页中提取和解析数据。本教程将结合网上教程,提供一份详细的CSS选择器使用指南,并深入探讨更多的指令和API。
2024-03-04 17:11:44
1055
原创 Scrapy与分布式开发(2.3):lxml+xpath基本指令和提取方法详解
XPath,全称为XML Path Language,是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML,还常用于处理HTML文档。
2024-03-04 16:11:27
1341
原创 Scrapy与分布式开发(2.6):谈谈常用采集策略与应用场景
一个好的采集策略能够提高采集效率,在有限资源下带来更好的适应性和灵活性,从而提高采集质量。
2024-02-29 10:00:00
126
原创 Scrapy与分布式开发:框架原生去重机制源码解析与不足分析
在网络爬虫和数据采集领域,去重机制是一个至关重要的环节。随着互联网的迅速发展,数据量呈爆炸式增长,如何在海量数据中高效地筛选出有价值且唯一的信息,成为了一个亟待解决的问题。去重机制正是为了解决这一问题而诞生的。
2024-02-28 16:57:04
453
原创 Scrapy与分布式开发(2.5):自动化工具playwright
Playwright 是一个无头浏览器测试库,它允许你使用 Python 脚本控制浏览器自动化,执行各种浏览器操作,如点击、填写表单、导航至页面等。Playwright 支持 Chromium (包括 Chrome 和 Edge)、Firefox 和 Webkit (包括 Safari) 这三种主流的浏览器引擎。与 Selenium 类似,Playwright 同样可以模拟用户行为,但它提供了更简洁的 API 和更少的配置。
2024-02-28 10:41:58
504
原创 Scrapy与分布式开发(1.2):开发环境搭建
Anaconda是一个流行的Python数据科学平台,它包含了许多用于数据分析和科学计算的软件包。Anaconda使用conda作为其包管理和环境管理系统。也可以在进入项目后,点击右下角进入环境选择界面,同时支持创建新环境。安装完成后,打开pycharm,新建项目。当本机安装有python环境时会自动引入。下载,下载后按照以下流程图片安装即可。,下载成功后根据以下流程图片安装即可。官网下载太慢,我们通过。
2024-02-28 09:51:23
86
基于vue+python实现在线教育网站的设计与开发
2025-01-07
基于python+flask+postgreSQL技术设计并实现旅游数据可视化平台
2025-01-07
基于python flask实现某瓣数据可视化数据分析平台
2024-12-23
基于python第三方库pybloom-live实现的redis布隆过滤器类
2024-12-23
ApkTool 解包和打包
2024-05-03
基于MySQL、Redis和MongoDB数据库开发命令行新闻管理系统
2020-06-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人