因为返回时间的问题,被第二个多了条件给过滤掉了
if (!schedule.shouldFetch(url, crawlDatum, curTime)) {
LOG.debug("-shouldFetch rejected '" + url + "', fetchTime="
+ crawlDatum.getFetchTime() + ", curTime=" + curTime);
return;
}
查看中间结果显示:可一看到父链接的FetchTime大于nutch的curTime,也大于刚得到的系统时间,所以可以确定对于父链接的datum中的FetchTime属性指的是下次爬取的时间,而不是本次爬去完成的时间。
datum.getFetchTime=1346142937056
curTime=1343551003551
System.currentTimeMillis()=1343551004197