一、常用工具:
1、httpclient:基于http/https请求,发起请求时,无法同时渲染js加载的数据,需额外处理。
2、htmlunit:可抓取js数据,功能少
3、selenium:网页测试工具,被用于爬虫,是以浏览器驱动webdriver的方式加载网页,可加载chrome和firefox驱动,需自行下载
4、phantomJS:用一般用于处理js数据,运行吃内存,目前暂停维护
5、puppeteer:基于chromium驱动,区别于selenium的webdriver,采用cdp协议操作浏览器,性能比selenium略好,功能更全面。
6、HttpCanary:android端的爬虫神器。
7、APP Store 上的:
Stream,https://apps.apple.com/cn/app/stream/id1312141691
Http Traffic:https://www.52pojie.cn/thread-1052830-1-1.html
8、其他
二、网页反爬虫策略:
1、js异步渲染数据
2、js加密数据
3、图片结合偏移量展现数据
4、ip反爬
5、识别webdriver特征
6、验证码反爬
一时想不起其他的,待补充....
三、抓包工具
1、Fiddler(支持手机配置代理抓包)
2、wireshark(tcp协议和http协议抓包)
3、burpsuite
4、其他
四、其他资料
js加密数据爬取