爬虫全系列知识点总结

爬虫分为:

1.垂直获取型爬虫,也就是自己针对特定网站(web)或APP得采集也包括客户端软件。

2.类似于搜索引擎的爬虫,自动获取各种网站智能解析各种数据

其中WEB端爬虫得难点在于(JS逆向、浏览器环境伪造、以及高度可用的IP和Cookie)

目前存在的反爬痛点(WEB)

1.目前JS逆向得反爬点主要集中于JS混淆加密(AA\JJ\JSFUCK\OB\sojson)类似于这些主要增加冗余代码降低JS代码的可读性。除此之外还有(JSVMP\WASM)类似于这些。

2.一些反调试操作比如(无限DEBUG、监听DOM事件和一些错误的干扰逻辑)

3.风控反爬(服务器端收集你的操作和浏览器身份比如你的浏览器插件和屏幕宽高等)生成一段指纹包括(JA3)TLS指纹等

目前存在的痛点(APP)

1.APP做了加固处理,你不好HOOK到加密生成逻辑甚至写进了二进制文件中

2.APP做了指纹校验,他会检测你的客户端身份

3.APP走了一些私有协议

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值