nutch爬去是出现NullPointException问题

最新推荐文章于 2024-06-21 14:38:19 发布

WitsMakeMen

最新推荐文章于 2024-06-21 14:38:19 发布

阅读量871

点赞数

分类专栏：搜索引擎研究nutch 文章标签： path url string null

本文链接：https://blog.csdn.net/witsmakemen/article/details/7797014

版权

搜索引擎研究nutch 专栏收录该内容

69 篇文章 1 订阅

订阅专栏

问题出现在：package org.apache.nutch.protocol.http.api中的RobotRulesParser类的isAllowed方法中，可能请求时间过短的原因，让该方法睡眠500毫秒问题就解决了，但影响效率。有更好的解决方案待深入研究。

    public boolean isAllowed(URL url) {
//      System.err.println("url="+url);
      String path = url.getPath();                  // check rules
      if ((path == null) || "".equals(path)) {
        path= "/";
      }
      try {
		Thread.sleep(500);
	} catch (InterruptedException e) {
		// TODO Auto-generated catch block
		e.printStackTrace();
	}
//      System.err.println("+++++++++++++++++++>>>>>>>>>>"+path);
      return isAllowed(path);
    }