爬虫程序的优化策略

1、注意很多网站,可以先用代理ip+ua(ua库随机提取)访问,之后会返回来一个cookie,那ip+ua+cookie就是一一对应的,然后用这个ip、ua和cookie去采集网站,这样效果会比较好
2、有些网站反爬取的措施应该比较强的。访问之后每次清除缓存,这样能有效规避部分网站的检测;但是有些网站更严格的判断,如果都是新链接从ip发出,也会被判定拒绝(直接403拒绝访问),因此有些爬虫客户会去分析网站的cookies缓存内容,然后进行修改。
3、浏览器的标识(User-Agent)也很重要,用户都是一种浏览器,也是容易判断作弊,要构造不同的浏览器标识,否则容易被判定爬虫。https://httpbin.org/headers,用代理访问之后,浏览器标识需要修改,建议浏览器用phantomjs框架,这个可以模拟其他浏览器的标示(需要标示库的话,我们可以提供1000+),可以通过API接口实现各种浏览器的采集模拟。
4、信息类网站(58、企查查、工商),这类网站主要靠信息提供商业服务,所以反爬措施很严格,非账号(匿名)采集务必生成正确的cookie和ua,同时限制好频率。建议通过账号登陆来进行采集,这样可以提高采集效率。
5、另外还需要模拟一些用户鼠标行为,这样才能通过这些网站的反爬措施。
7、通过流量统计和日志分析,如果发现单个IP访问、单个session访问、User-Agent信息超出设定的正常频度阈值
8、选择正确的爬虫代理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值