Python爬虫零基础到进阶
主题:爬虫进阶是爬虫的逆向抓取技术,善于APP逆向抓取,社会化工程抓取和爬虫变现实践经验。
结尾
- 【简历】爬虫简历写作技巧,利用爬虫技术在面试中挣被动收入的实践经验和方法论。 【如何写一份合格的爬虫简历,增加面试邀约机率是技巧】
- 【经验方法分享】爬虫技术结构化数据整合做流量挣钱的实践经验和实践方法论。
目标:面向爬虫工作为主,以及职业指导和技术支持;掌握爬虫逆向抓取技术,追求高薪资是完全没问题的。
零基础
Python基础 、爬虫基础、 JS基础、安卓基础
爬虫进阶课
tip:爬虫技术进阶主要体现在反爬对抗和规模化抓取上。目前网页的对抗难度上限是跟浏览器特征和访问行为绑定的高度混淆 JS 和验证码拖拽等;APP 的 SO 混淆,抓包和设备特征检测对抗等。
内容涉及:
- JS逆向:反混淆颇有难度的 JS
- 安卓逆向:APP HOOK 抓取
- 验证码识别:机器学习验证码
- 框架设计:爬虫工程化经验,规模化抓取窍门
- 技术栈:安卓逆向抓取、JS 逆向抓取,安卓群控抓取、容器定制化、抓取黑科技。
JS逆向抓取
- JS工具使用(插件、抓包、devtools调试)
- 混淆代码还原(花指令、控制流、转义…)
- JS关键代码剥离抽取技巧
- 加密函数自吐(补环境、沙箱、痕迹擦除、自吐环境…)
- JSVMP(字节码、指令集、寄存器…)
- 加密入口定位(hook内存漫游、二分定位…)
APP逆向抓取
- 安卓开发基础普及
- APP脱壳(加壳原理、指令抽取、魔改脱壳机)
- APP复杂场景抓包(vpn、中间人、ssl、tcp各抓包场景)
- Frida逆向开发(hook、frida反检测对抗、objection)
- Ratel逆向开发
- IDA调试
- IDA trace、stalker还原ollvm
- 加密参数算法定位与还原
- sekiro远程调用
机器学习验证码
- 深度学习基础与环境搭建
- 模型训练与保存
- 不定长英数汉字内容识别
- 图片拼图接口位置识别
- 图片上文字坐标位置识别
- 数据标注
- 图片识别API接口搭建
高性能爬虫框架设计
1.异步\分布式爬虫设计