防爬虫无耻抓取的策略

最新推荐文章于 2024-08-22 18:16:10 发布

zengbin164

最新推荐文章于 2024-08-22 18:16:10 发布

阅读量6.3k

点赞数

分类专栏：性能、安全文章标签：产品 application 引擎扩展 apache 工具

本文链接：https://blog.csdn.net/zengbin164/article/details/6088691

版权

性能、安全专栏收录该内容

3 篇文章 0 订阅

订阅专栏

如果你做过站长，你会发现很多时候自己的线上产品被一些不入流的爬虫进行抓取，自己的数据被窃取了不说，更多时候它还在我们的产品中留下一些垃圾数据，给我们的运用人员评估产品的价值带来一定的误区，也给我们的产品的健康稳定发展带来了阻碍。

针对这个问题我觉得有必要通过一定的手段来避免，如下：

基本功能

   1. 拦截攻击
      对攻击行为具有灵活的拦截能力，可以通过浏览者的IP地址或者浏览者的Cookie进行拦截。
      用户被拦截是可以表现为不同的可定制的形式，如返回404错误页面，返回403访问禁止。
      拦截可以指定时间，超过拦截时间则被允许访问，直到再次被行为分析引擎捕获判定为恶意访问。
   2. NAT判定
      因为基本拦截是基于访问频率进行，因此需要能够使用技术手段判断出来自NAT出口的访问，防止误杀单一IP出口的公司用户。 NAT介绍：http://baike.baidu.com/view/16102.htm
   3. 白名单
      需要能够人工定制白名单，将集团IP地址以及某些可信合作伙伴加入不受限制列表，防止影响正常业务的运行。

扩展功能

   1. 水印功能
      水印功能为基础拦截能力的扩展，当用户被判定为恶意访问时不被直接禁止访问，而是转跳到水印页面，要求进行人机识别，当通过人机识别之后到达正常页面。根据配置，人机识别要求在一定时间之后自动去掉，直到用户再度被行为分析引擎判定为恶意用户。
   2.配置规则增强
     过滤规则除了现在的基本频率统计外，能够增加更多HTTP应用层协议解析功能。例如获得GET请求，POST请求，HTTP头等内容，根据内容匹配用户请求并部署过滤策略。对字符串的操作能力进行加强，能够实现字符串连接，字符串截取能力。
   3.WEB Application Firewall功能
     增加同步拦截过滤能力，如CRLF攻击过滤等。

如果能够实现上述功能的并开发出一个工具，应该能够有效来避免爬虫抓取，可以在apache端考虑实现