对爬虫下一步的打算

      在临时解决好robots文件的bug后,发现爬虫在爬行数小时后依然会出错,且该错误原因不明,从定位的出错代码无法看出任何错误相关信息,初步判断该bug应该是与并行化有关。

      对于稳定爬虫拟采取以下三个方式:

  1.  目前的爬虫是基于NCrawler的dotnet3.5版,利用vs2010的并行化支持,对其并行化之后实现的。该方法实现了对不同网站的并行爬行,大大提高了爬虫的效率,可是原版本在并行化后,可能导致出现bug,估计上述无法确定的错误就于此有关。
  2. NCrawler还提供了dotnet4.0版,已经是并行化的版本了,但是其本身只对同一个网站并行爬行。此种方法对于爬虫的效率提高能力有限,因对同一网站不间断的大量爬行容易变成对该网站的攻击,导致其不能访问,所以爬行之后必须有一个合理的时间间隔,这将导致该版本效率提高有限。基于此版本修改,使其可以对不同网站执行并行处理,以提高其效率。目前的问题是工作量大小未知(应该不太大),且修改成功后亦不能保证就会是一个稳定版本。
  3. 因为NCrawler是一个活跃的正在开发中的开源爬虫,其稳定性和效率还有待考验。考虑于此同时可以学习arachnode.net,该爬虫是目前dotnet平台最成熟的一个开源爬虫,且已经集成了lucene.net的分词功能,已经是一个比较完整的搜索引擎。基于该爬虫的修改应该可以保证效率和稳定性,只是arachnode.net的15万行代码相对于NCrawler的2万行代码会很难消化……
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值