Python爬虫提纲

基础

一、python基础

  1. 熟悉Python基础
  2. 环境安装(了解Python虚拟环境、文本和集成工具类编辑器)以及Python的数据类型、字符串等等。
  3. 每天能写两百行代码量,解决实际问题的python程序。
  4. 具备Python Web开发、Python外包、副业接单的经验。

二、爬虫基础

  1. 什么是爬虫,怎么去写爬虫代码,爬虫由什么组成的。
  2. re、xpath模块的使用
  3. Redis、scrapy框架
  4. MySQL、MongoDB数据库
  5. 比如说爬虫要请求URL,解析数据,数据要往数据库里存。第三方库的使用,例如pycharm、Re、MYSQL、MongoDB,大量读取数据,往数据库写又来不及啦,往缓存里写就要用到redis,消息中间件kafka。
  6. 大量IP的使用、简单抓包、简单网页端的入门JS。
  7. 每天能写两百行代码量的完整爬虫程序。
  8. 熟悉JS逆向和爬虫接单。
  9. 分布式爬虫

三、JS基础

爬虫技术进阶课–逆向–题纲

  1. 如果先精进JS逆向就学sec4sec7 JS逆向:
    section4:JS逆向进阶,JS内部练习平台的题都全部做完,掌握的话,反混淆X数不成问题。(15节)
    section7:课程答疑视频,内容比较杂。( 7节)
  2. 如果先精进安卓就新-sec2 sec3 sec6 APP逆向抓取:
    新section2-3:安卓APP逆向技能学习(frida技术栈逆向); 这部分在重新制作,更新加深难度。(36节)
    新-section6:平头哥技术栈,安卓逆向(不需要root手机),可以做到对抗风控,反设备指纹,APP基本都能抓。(28节)
  3. 如果找工作面试就sec 1 sec7
    Section1:如何设计爬虫框架(异步爬虫/分布式爬虫),面试时爬虫设计常问的问题在这个阶段。(6节)
    section7:课程答疑视频,内容比较杂。( 7节)
  4. 其他 机器验证码识别:
    新-section5:爬虫接单与聚合数据挣钱。( 8节)
    section9: 机器学习做验证码识别。(10节)

进阶

一、框架设计

二、JS逆向

三、验证码识别

四、安卓逆向

五、技术栈

拓展

爬虫的五大方向

  1. 电商数据(京东、淘宝、得物)
  2. 外卖数据
  3. 短视频数据
  4. 工商数据(天眼查、企业查)
  5. 海外外贸数据(亚马逊)

跨境电商

地方划分
【北京、上海】(亚马逊多点)、【福建】跨境缅甸老板?
【深圳】(工商)

某个方向都能熟练稳重抓取,面试逆向技术解说的考核点、难点,比如熟悉网页端、APP端(抓包复杂、验证)技术要领,解决一些场景问题,实践表现经验丰富,北上都能找到10-20k的工作,APP的搞内网的APP有个20K。

七、总结

要求:每个月写2000-4000行代码,每年写个三四万行代码;真正的程序员在公司一天写1万行代码,不是复制粘贴,要解决公司的问题,程序员加班常态化。 **逆向分析:**爬虫代码量不需要特别多,很难的APP、网页端,代码量也不会很多,难是难在分析阶段,分析那个逆向过程,爬虫90%都是两百行代码能够搞定,分析出来后代码是比较简单的,难在分析阶段,跟那个网络安全一样的,不需要大量的代码。学好Python基础和爬虫基础,能够完成一些初阶爬虫工作,都能找到几千块钱的爬虫岗位。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值