基础
一、python基础
- 熟悉Python基础
- 环境安装(了解Python虚拟环境、文本和集成工具类编辑器)以及Python的数据类型、字符串等等。
- 每天能写两百行代码量,解决实际问题的python程序。
- 具备Python Web开发、Python外包、副业接单的经验。
二、爬虫基础
- 什么是爬虫,怎么去写爬虫代码,爬虫由什么组成的。
- re、xpath模块的使用
- Redis、scrapy框架
- MySQL、MongoDB数据库
- 比如说爬虫要请求URL,解析数据,数据要往数据库里存。第三方库的使用,例如pycharm、Re、MYSQL、MongoDB,大量读取数据,往数据库写又来不及啦,往缓存里写就要用到redis,消息中间件kafka。
- 大量IP的使用、简单抓包、简单网页端的入门JS。
- 每天能写两百行代码量的完整爬虫程序。
- 熟悉JS逆向和爬虫接单。
- 分布式爬虫
三、JS基础
爬虫技术进阶课–逆向–题纲
- 如果先精进JS逆向就学sec4sec7 JS逆向:
section4:JS逆向进阶,JS内部练习平台的题都全部做完,掌握的话,反混淆X数不成问题。(15节)
section7:课程答疑视频,内容比较杂。( 7节) - 如果先精进安卓就新-sec2 sec3 sec6 APP逆向抓取:
新section2-3:安卓APP逆向技能学习(frida技术栈逆向); 这部分在重新制作,更新加深难度。(36节)
新-section6:平头哥技术栈,安卓逆向(不需要root手机),可以做到对抗风控,反设备指纹,APP基本都能抓。(28节) - 如果找工作面试就sec 1 sec7
Section1:如何设计爬虫框架(异步爬虫/分布式爬虫),面试时爬虫设计常问的问题在这个阶段。(6节)
section7:课程答疑视频,内容比较杂。( 7节) - 其他 机器验证码识别:
新-section5:爬虫接单与聚合数据挣钱。( 8节)
section9: 机器学习做验证码识别。(10节)
进阶
一、框架设计
二、JS逆向
三、验证码识别
四、安卓逆向
五、技术栈
拓展
爬虫的五大方向
- 电商数据(京东、淘宝、得物)
- 外卖数据
- 短视频数据
- 工商数据(天眼查、企业查)
- 海外外贸数据(亚马逊)
跨境电商
地方划分
【北京、上海】(亚马逊多点)、【福建】跨境缅甸老板?
【深圳】(工商)
某个方向都能熟练稳重抓取,面试逆向技术解说的考核点、难点,比如熟悉网页端、APP端(抓包复杂、验证)技术要领,解决一些场景问题,实践表现经验丰富,北上都能找到10-20k的工作,APP的搞内网的APP有个20K。
七、总结
要求:每个月写2000-4000行代码,每年写个三四万行代码;真正的程序员在公司一天写1万行代码,不是复制粘贴,要解决公司的问题,程序员加班常态化。 **逆向分析:**爬虫代码量不需要特别多,很难的APP、网页端,代码量也不会很多,难是难在分析阶段,分析那个逆向过程,爬虫90%都是两百行代码能够搞定,分析出来后代码是比较简单的,难在分析阶段,跟那个网络安全一样的,不需要大量的代码。学好Python基础和爬虫基础,能够完成一些初阶爬虫工作,都能找到几千块钱的爬虫岗位。