第五讲
土豆在线视频地址(66分钟)
1、 域统计
bin/nutch domainstats data2/crawldb/current host host
bin/nutch domainstats data2/crawldb/current domain domain
bin/nutch domainstats data2/crawldb/current suffix suffix
bin/nutch domainstats data2/crawldb/current tld tld
2、webgraph
bin/nutch webgraph -segmentDir data2/segments -webgraphdbdata2/webgraphdb
有相同inlinks的URL,只输出topn条
bin/nutch nodedumper -inlinks -output inlinks -topn 1 -webgraphdb data2/webgraphdb
有相同outlinks的URL,只输出topn条
bin/nutch nodedumper -outlinks -output outlinks -topn 1 -webgraphdb data2/webgraphdb
有相同scores的URL,只输出topn条(初始分值全为0)
bin/nutch nodedumper -scores -output scores -topn 1 -webgraphdbdata2/webgraphdb
计算URL分值
bin/nutch linkrank -webgraphdb data2/webgraphdb
再次查看分值
bin/nutch nodedumper -scores -output scores –topn 1 -webgraphdbdata2/webgraphdb
对结果进行分组,取最大值或是连加和(topn参数不参与)
bin/nutch nodedumper -group domain sum -inlinks -outputinlinks_group_sum -webgraphdbdata2/webgraphdb
bin/nutch nodedumper -group domain max -inlinks -outputinlinks_group_max -webgraphdbdata2/webgraphdb
对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。