nutch
xiao_jun_0820
要自己每天都开心,不要烦恼
忘掉压力,天天好心情
展开
-
nutch 学习笔记
Q:我有个疑问,抓取进程结束了,为什么有那么多URL没请求是不是跟我的抓取depth有关?A:crawldb里面有大量的URL,你每一次执行crawl命令,只会抓一部分(topN控制)每一次抓取,都会发现很多新的outlinks所以crawldb里面一般来说都会有很多unfetched的URLQ:topN后的参数用来指定本次fetch数量?A:YQ:原创 2013-04-04 22:35:02 · 781 阅读 · 0 评论 -
nutch readdb -stats中5个状态的含义
成功抓取完成之后,运行bin/nutch readdb data/crawldb -stats,可以查看抓取的统计信息: TOTAL urls: 1843retry 0: 1838retry 1: 5min score: 0.0avg score: 5.425936E-4max score: 1.0s原创 2013-04-04 22:23:01 · 1402 阅读 · 0 评论