爬虫经验小总结

一、常用工具:

1、httpclient:基于http/https请求,发起请求时,无法同时渲染js加载的数据,需额外处理。

2、htmlunit:可抓取js数据,功能少

3、selenium:网页测试工具,被用于爬虫,是以浏览器驱动webdriver的方式加载网页,可加载chrome和firefox驱动,需自行下载

4、phantomJS:用一般用于处理js数据,运行吃内存,目前暂停维护

5、puppeteer:基于chromium驱动,区别于selenium的webdriver,采用cdp协议操作浏览器,性能比selenium略好,功能更全面。

6、HttpCanary:android端的爬虫神器。

7、APP Store 上的:

Stream,https://apps.apple.com/cn/app/stream/id1312141691

Http Traffic:https://www.52pojie.cn/thread-1052830-1-1.html

8、其他

二、网页反爬虫策略:

1、js异步渲染数据

2、js加密数据

3、图片结合偏移量展现数据

4、ip反爬

5、识别webdriver特征

6、验证码反爬

一时想不起其他的,待补充....

三、抓包工具

1、Fiddler(支持手机配置代理抓包)

2、wireshark(tcp协议和http协议抓包)

3、burpsuite

4、其他

四、其他资料

js加密数据爬取

https://www.cnblogs.com/presleyren/p/11271488.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值