nutch配置详解

  配置软件:
1、 Java jdk-1.6
1.1 下载安装
from: http://www.sun.com
安装目录:C:\Java\jdk1.6.0_03
1.2 修改环境变量
JAVA_HOME=C:\Java\jdk1.6.0_03\bin
CLASSPATH=C:\Java\jdk1.6.0_03\lib\dt.jar;C:\Java\jdk1.6.0_03\lib\tools.jar
1.3 测试
java -version

2、tomcat-6.0
2.1 下载
from: http://tomcat.apache.org/


2.2 解压到f盘目录并改名
安装目录:f:\tomcat6

2.3 修改配置
conf/server.xml


QUOTE:
  <!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
    <Connector port="8080" maxHttpHeaderSize="8192"
            maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               c disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />    
 

 
2.4 启动服务
startup

测试:http://localhost:8080/
3、安装Cygwin
from:http://www.cygwin.cn/
由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/

4.2  解压后到d盘根目录
d:\cygwin\nutch
在d:\cygwin\nutch 目录下

建 url.txt文件,指定爬取列表
在文件中写入如下内容:
例如:http://www.chinavvv.com

4.3  指定爬虫规则
修改 conf/crawl-urlfilter.txt



 

QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 
把MY.DOMAIN.NAME换成自己要爬区上网域名chinavvv.com



4.4 修改 conf/nutch-site.xml

QUOTE:
<configuration>
        <property>
                <name>http.agent.name</name>
                <value>my nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>
如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。
4.5 开始爬取
打开Cygwin,
在命令行窗口中输入: 
  cd /cygdrive/c/nutch-1.0
执行命令:
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log
在这里
dir指定抓取内容所存放的目录,这里自动生成crawled文件夹用来存放索引

depth表示以要抓取网站顶级网址为起点的爬行深度,

 

threads指定并发的线程数。

4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后,war包自解压。
4.7 修改nutch的web配置
c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml
将内容更改为索引生成的目录。 
 
         <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
 
        <property>
                <name>searcher.dir</name>
                <value>d:\\cygwin\\nutch\\crawled</value>
        </property>
 
</configuration>
 <value>d:\\cygwin\\nutch\\crawled</value>是对应的爬取存放索引的文件夹,

中间千万不要有空格,最好使用"\\"不要使用"/ " 我弄了一天使用没有搜索结果,发现时“/”
的问题,

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值