（连载文章）爬虫NUTCH 第二篇——简单配置（先睹为快）-CSDN博客

本文链接：https://blog.csdn.net/zhanzhan02/article/details/83815490

[size=xx-large][color=red]具体照片：[url]http://t.jobdu.com/thread-1559-1-1.html[/url][/color][/size]
假定我们要爬九度。

step1：下载nutch和cygwin
http://apache.etoak.com//nutch/ 找到nutch-1.0.tar.gz

http://www.315safe.com/download/study/unix/12761.shtml

step2：nutch下配置

1、在nutch1.0文件夹下添加一个文件 url.txt 里面填写 http://t.jobdu.com/

2、D:\develop\nutch-1.0\conf\crawl-urlfilter 最后2行改为：

# accept hosts in MY.DOMAIN.NAME
+^http://t.jobdu.com/

# skip everything else
-.

step3：cygwin的使用

1、启动cygwin
2、输入pwd查看当前目录，我们现在的任务是要能访问nutch文件夹下的信息
3、输入 cd / 返回当前目录的根目录 pwd查看　如果显示　／　则表明到达根目录
４、cd /cygdirve/ｎｕｔｃｈ－１.０的目录
５、收录信息
输入　bin/nutch crawl url.txt -dir jiudu -depth 3 -threads 4 -topN 10

step4：tomcat 下配置

1、nutch1.0下的nutch-1.0.war拷贝到Tomcat 6.0\webapps 下
2、启动 tomcat
3、访问 http://localhost:8080/nutch-1.0/zh/

step5：考验下九度的seo

依次输入求职、面试、招聘、计算机、程序员效果如下：主要看查询结构的总数量，(因为我们只爬了前十条记录)查询出了17条并且都是一样的说明九度的seo做得不错。