环境;
System: Ubuntu 9.04
JDK:1.6
Tomcat:6.0.29
Nutch:1.2
1, 安装JDK
我用的是绿色版,配置比较方便。放到自己的工作目录,然后就是配置环境变量(和windows很类似。)
1)执行命令 vi /etc/profile
2) 添加如下代码到profile文件末尾(/home/xyzqing/develop/jdk1.6.0_23是我的JDK安装目录,请根据个人放置位置修改。)
3)保存退出 ":wq "
4) Test JDK
java -version
javac
2. Tomcat
1) 安装 略
2)配置
A)vi conf/server.xml找到
添加 URIEncoding="UTF-8" useBodyEncodingForURI="true“ 以防止nutch对中文的支持不好。
3)http://localhost:8080 看看能不能看到你熟悉的小猫。
3 nutch (http://nutch.apache.org/ )
1)下载所需安装包解压到任意目录,进入nutch目录(e.g: cd nutch)
2) 执行 ant war(利用build.xml 打war包,详情查看build.xml)
3) cd build, cd nutch*.war /home/xyzqing/develop/tomcat/webapps/nutch/root.war(此目录需要手工创建)
4)cd 到tomcat/webapps下。执行jar xvf root.war
5) cd到tomcat根目录,启动tomcat: sh /bin/startup.sh
6) 从浏览器访问http://localhost:8080 如下
7) cd到nutch根目录
A)mkdir urls
B)echo http:// www.qq.com/>>urls/qq
C)编辑 conf/crawl-urlfilter.txt 文件,设定要抓取的网址信息。
vi conf/crawl-urlfilter.txt
修改 MY.DOMAIN.NAME 为:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*/.)*qq.com/
D)编辑 conf/nutch-site.xml 文件,增加代理的属性,并编辑相应的属性值
E) 配置 tomcat 设定搜索目录
cd ~/tomcat
vi webapps/nutch/WEB-INF/classes/nutch-site.xml
增加四行代码,修改成为
<configuration>
<property>
<name>searcher.dir</name>
<value>/home/xyzqing/develop/nutch/qq</value>
</property>
</configuration>
value 的值指向 nutch 抓取的页面的保存目录
F)cd 到nutch 根目录,执行抓取命令
bin/nutch crawl urls -dir qq -depth 3 -threads 30 -topN 50 > crawl.log &