[size=xx-large][color=red]具体照片:[url]http://t.jobdu.com/thread-1559-1-1.html[/url][/color][/size]
假定我们要爬九度。
step1: 下载nutch和cygwin
http://apache.etoak.com//nutch/ 找到nutch-1.0.tar.gz
http://www.315safe.com/download/study/unix/12761.shtml
step2:nutch下配置
1、在nutch1.0文件夹下 添加一个文件 url.txt 里面填写 http://t.jobdu.com/
2、D:\develop\nutch-1.0\conf\crawl-urlfilter 最后2行改为:
# accept hosts in MY.DOMAIN.NAME
+^http://t.jobdu.com/
# skip everything else
-.
step3:cygwin的使用
1、启动cygwin
2、输入pwd查看当前目录,我们现在的任务是要能访问nutch文件夹下的信息
3、输入 cd / 返回当前目录的根目录 pwd查看 如果显示 / 则表明到达根目录
4、cd /cygdirve/nutch-1.0的目录
5、收录信息
输入 bin/nutch crawl url.txt -dir jiudu -depth 3 -threads 4 -topN 10
step4:tomcat 下配置
1、nutch1.0下的nutch-1.0.war拷贝到Tomcat 6.0\webapps 下
2、启动 tomcat
3、访问 http://localhost:8080/nutch-1.0/zh/
step5:考验下九度的seo
依次输入 求职、面试、招聘、计算机、程序员效果如下:主要看查询结构的总数量,(因为我们只爬了前十条记录)查询出了17条并且都是一样的说明九度的seo做得不错。
假定我们要爬九度。
step1: 下载nutch和cygwin
http://apache.etoak.com//nutch/ 找到nutch-1.0.tar.gz
http://www.315safe.com/download/study/unix/12761.shtml
step2:nutch下配置
1、在nutch1.0文件夹下 添加一个文件 url.txt 里面填写 http://t.jobdu.com/
2、D:\develop\nutch-1.0\conf\crawl-urlfilter 最后2行改为:
# accept hosts in MY.DOMAIN.NAME
+^http://t.jobdu.com/
# skip everything else
-.
step3:cygwin的使用
1、启动cygwin
2、输入pwd查看当前目录,我们现在的任务是要能访问nutch文件夹下的信息
3、输入 cd / 返回当前目录的根目录 pwd查看 如果显示 / 则表明到达根目录
4、cd /cygdirve/nutch-1.0的目录
5、收录信息
输入 bin/nutch crawl url.txt -dir jiudu -depth 3 -threads 4 -topN 10
step4:tomcat 下配置
1、nutch1.0下的nutch-1.0.war拷贝到Tomcat 6.0\webapps 下
2、启动 tomcat
3、访问 http://localhost:8080/nutch-1.0/zh/
step5:考验下九度的seo
依次输入 求职、面试、招聘、计算机、程序员效果如下:主要看查询结构的总数量,(因为我们只爬了前十条记录)查询出了17条并且都是一样的说明九度的seo做得不错。