爬虫分为:
1.垂直获取型爬虫,也就是自己针对特定网站(web)或APP得采集也包括客户端软件。
2.类似于搜索引擎的爬虫,自动获取各种网站智能解析各种数据
其中WEB端爬虫得难点在于(JS逆向、浏览器环境伪造、以及高度可用的IP和Cookie)
目前存在的反爬痛点(WEB)
1.目前JS逆向得反爬点主要集中于JS混淆加密(AA\JJ\JSFUCK\OB\sojson)类似于这些主要增加冗余代码降低JS代码的可读性。除此之外还有(JSVMP\WASM)类似于这些。
2.一些反调试操作比如(无限DEBUG、监听DOM事件和一些错误的干扰逻辑)
3.风控反爬(服务器端收集你的操作和浏览器身份比如你的浏览器插件和屏幕宽高等)生成一段指纹包括(JA3)TLS指纹等
目前存在的痛点(APP)
1.APP做了加固处理,你不好HOOK到加密生成逻辑甚至写进了二进制文件中
2.APP做了指纹校验,他会检测你的客户端身份
3.APP走了一些私有协议