(连载文章)爬虫NUTCH 第二篇——简单配置(先睹为快)

[size=xx-large][color=red]具体照片:[url]http://t.jobdu.com/thread-1559-1-1.html[/url][/color][/size]
假定我们要爬九度。

step1: 下载nutch和cygwin
http://apache.etoak.com//nutch/ 找到nutch-1.0.tar.gz


http://www.315safe.com/download/study/unix/12761.shtml


step2:nutch下配置

1、在nutch1.0文件夹下 添加一个文件 url.txt 里面填写 http://t.jobdu.com/

2、D:\develop\nutch-1.0\conf\crawl-urlfilter 最后2行改为:


# accept hosts in MY.DOMAIN.NAME
+^http://t.jobdu.com/

# skip everything else
-.


step3:cygwin的使用

1、启动cygwin
2、输入pwd查看当前目录,我们现在的任务是要能访问nutch文件夹下的信息
3、输入 cd / 返回当前目录的根目录 pwd查看 如果显示 / 则表明到达根目录
4、cd /cygdirve/nutch-1.0的目录
5、收录信息
输入 bin/nutch crawl url.txt -dir jiudu -depth 3 -threads 4 -topN 10


step4:tomcat 下配置

1、nutch1.0下的nutch-1.0.war拷贝到Tomcat 6.0\webapps 下
2、启动 tomcat
3、访问 http://localhost:8080/nutch-1.0/zh/


step5:考验下九度的seo

依次输入 求职、面试、招聘、计算机、程序员效果如下:主要看查询结构的总数量,(因为我们只爬了前十条记录)查询出了17条并且都是一样的说明九度的seo做得不错。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值