nutch
文章平均质量分 77
zhaoyue007101
这个作者很懒,什么都没留下…
展开
-
Nutch 学习笔记2 - 查看抓取的文件
http://z60014840.blog.163.com/blog/static/36372889201332085636597/查看抓取后的文件夹ls data -- 有3个文件夹crawldb linkdb segmentsls data/crawldb -- 有2个文件夹:current old。其中old 做冗余备份原创 2015-11-10 12:36:26 · 652 阅读 · 0 评论 -
如何调试nutch
【必须】导入nutch项目时其conf文件下的所有配置文件需要加入到classPath中右键conf -> Build Path -> Use as Source Folder在运行时如发生异常:x point org.apache.nutch.net.URLNormalizer not found.注:这是配置造成的,是插件目录的配置没有正确,修改conf/n原创 2015-11-10 11:15:54 · 701 阅读 · 0 评论 -
Nutch 查看抓取的文件
ls data -- 有3个文件夹crawldb linkdb segmentsls data/crawldb -- 有2个文件夹:current old。其中old 做冗余备份ls data/crawldb/current/ -- part-00000 ,由hadoop reduce 生成的文件夹原创 2015-11-11 12:14:49 · 2113 阅读 · 0 评论 -
nutch-default.xml配置参数解释(部分)
http.max.delays <property> <name>http.max.delays</name> <value>100</value> <description>Thenumber of times a thread will delay when trying to...原创 2015-11-13 17:50:01 · 1071 阅读 · 0 评论