问题出现在:package org.apache.nutch.protocol.http.api中的RobotRulesParser类的isAllowed方法中,可能请求时间过短的原因,让该方法睡眠500毫秒问题就解决了,但影响效率。有更好的解决方案待深入研究。
public boolean isAllowed(URL url) {
// System.err.println("url="+url);
String path = url.getPath(); // check rules
if ((path == null) || "".equals(path)) {
path= "/";
}
try {
Thread.sleep(500);
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
// System.err.println("+++++++++++++++++++>>>>>>>>>>"+path);
return isAllowed(path);
}