爬虫程序的优化策略

最新推荐文章于 2023-05-30 16:10:20 发布

苑灵格

最新推荐文章于 2023-05-30 16:10:20 发布

阅读量233

点赞数

分类专栏：总结

本文链接：https://blog.csdn.net/yuanlingGeGe/article/details/100765566

版权

总结专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1、注意很多网站，可以先用代理ip+ua（ua库随机提取）访问，之后会返回来一个cookie，那ip+ua+cookie就是一一对应的，然后用这个ip、ua和cookie去采集网站，这样效果会比较好
2、有些网站反爬取的措施应该比较强的。访问之后每次清除缓存，这样能有效规避部分网站的检测；但是有些网站更严格的判断，如果都是新链接从ip发出，也会被判定拒绝（直接403拒绝访问），因此有些爬虫客户会去分析网站的cookies缓存内容，然后进行修改。
3、浏览器的标识（User-Agent）也很重要，用户都是一种浏览器，也是容易判断作弊，要构造不同的浏览器标识，否则容易被判定爬虫。https://httpbin.org/headers，用代理访问之后，浏览器标识需要修改，建议浏览器用phantomjs框架，这个可以模拟其他浏览器的标示（需要标示库的话，我们可以提供1000+），可以通过API接口实现各种浏览器的采集模拟。
4、信息类网站（58、企查查、工商），这类网站主要靠信息提供商业服务，所以反爬措施很严格，非账号（匿名）采集务必生成正确的cookie和ua，同时限制好频率。建议通过账号登陆来进行采集，这样可以提高采集效率。
5、另外还需要模拟一些用户鼠标行为，这样才能通过这些网站的反爬措施。
7、通过流量统计和日志分析，如果发现单个IP访问、单个session访问、User-Agent信息超出设定的正常频度阈值
8、选择正确的爬虫代理

苑灵格

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫程序的优化策略

1、注意很多网站，可以先用代理ip+ua（ua库随机提取）访问，之后会返回来一个cookie，那ip+ua+cookie就是一一对应的，然后用这个ip、ua和cookie去采集网站，这样效果会比较好2、有些网站反爬取的措施应该比较强的。访问之后每次清除缓存，这样能有效规避部分网站的检测；但是有些网站更严格的判断，如果都是新链接从ip发出，也会被判定拒绝（直接403拒绝访问），因此有些爬虫客户会去...
复制链接

扫一扫

专栏目录