防爬虫无耻抓取的策略

    如果你做过站长,你会发现很多时候自己的线上产品被一些不入流的爬虫进行抓取,自己的数据被窃取了不说,更多时候它还在我们的产品中留下一些垃圾数据,给我们的运用人员评估产品的价值带来一定的误区,也给我们的产品的健康稳定发展带来了阻碍。

    针对这个问题我觉得有必要通过一定的手段来避免,如下:

   基本功能

   1. 拦截攻击
      对攻击行为具有灵活的拦截能力,可以通过浏览者的IP地址或者浏览者的Cookie进行拦截。
      用户被拦截是可以表现为不同的可定制的形式,如返回404错误页面,返回403访问禁止。
      拦截可以指定时间,超过拦截时间则被允许访问,直到再次被行为分析引擎捕获判定为恶意访问。
   2. NAT判定
      因为基本拦截是基于访问频率进行,因此需要能够使用技术手段判断出来自NAT出口的访问,防止误杀单一IP出口的公司用户。  NAT介绍:http://baike.baidu.com/view/16102.htm
   3. 白名单
      需要能够人工定制白名单,将集团IP地址以及某些可信合作伙伴加入不受限制列表,防止影响正常业务的运行。

  扩展功能

   1. 水印功能
      水印功能为基础拦截能力的扩展,当用户被判定为恶意访问时不被直接禁止访问,而是转跳到水印页面,要求进行人机识别,当通过人机识别之后到达正常页面。根据配置,人机识别要求在一定时间之后自动去掉,直到用户再度被行为分析引擎判定为恶意用户。
   2.配置规则增强
     过滤规则除了现在的基本频率统计外,能够增加更多HTTP应用层协议解析功能。例如获得GET请求,POST请求,HTTP头等内容,根据内容匹配用户请求并部署过滤策略。对字符串的操作能力进行加强,能够实现字符串连接,字符串截取能力。
   3.WEB Application Firewall功能
     增加同步拦截过滤能力,如CRLF攻击过滤等。

如果能够实现上述功能的并开发出一个工具,应该能够有效来避免爬虫抓取,可以在apache端考虑实现

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值