nutch 初体验-入门篇

环境;

System: Ubuntu 9.04

JDK:1.6

Tomcat:6.0.29

Nutch:1.2

 

1, 安装JDK

 

   我用的是绿色版,配置比较方便。放到自己的工作目录,然后就是配置环境变量(和windows很类似。)

 

   1)执行命令 vi /etc/profile

   2) 添加如下代码到profile文件末尾(/home/xyzqing/develop/jdk1.6.0_23是我的JDK安装目录,请根据个人放置位置修改。)

 

      

    3)保存退出 ":wq "

    4) Test JDK

          java -version

          javac

 

2. Tomcat

    1) 安装 略

    2)配置

       A)vi  conf/server.xml找到

           

 

          添加  URIEncoding="UTF-8" useBodyEncodingForURI="true“ 以防止nutch对中文的支持不好。

 

          

      3)http://localhost:8080 看看能不能看到你熟悉的小猫。

 

3 nutch  (http://nutch.apache.org/

 

 

  1)下载所需安装包解压到任意目录,进入nutch目录(e.g: cd nutch)

  2) 执行 ant war(利用build.xml 打war包,详情查看build.xml)

  3) cd build, cd nutch*.war /home/xyzqing/develop/tomcat/webapps/nutch/root.war(此目录需要手工创建)

    4)cd 到tomcat/webapps下。执行jar xvf root.war

  5) cd到tomcat根目录,启动tomcat: sh /bin/startup.sh

  6) 从浏览器访问http://localhost:8080 如下

   

 

  7) cd到nutch根目录

    A)mkdir urls

    B)echo http:// www.qq.com/>>urls/qq

    C)编辑 conf/crawl-urlfilter.txt 文件,设定要抓取的网址信息。

        vi conf/crawl-urlfilter.txt

         修改 MY.DOMAIN.NAME 为:

         # accept hosts in MY.DOMAIN.NAME

         +^http://([a-z0-9]*/.)*qq.com/

    D)编辑 conf/nutch-site.xml 文件,增加代理的属性,并编辑相应的属性值

        

 

   E) 配置 tomcat 设定搜索目录

         cd ~/tomcat

         vi webapps/nutch/WEB-INF/classes/nutch-site.xml

   增加四行代码,修改成为

  <configuration>

    <property>

            <name>searcher.dir</name>

            <value>/home/xyzqing/develop/nutch/qq</value>

   </property>

 </configuration>

    value 的值指向 nutch 抓取的页面的保存目录

 

F)cd 到nutch 根目录,执行抓取命令

 

      bin/nutch crawl urls -dir qq -depth 3 -threads 30 -topN 50 > crawl.log &

-urls 是存放 qq 网址的文件夹目录
-dir qq 是抓取的页面的存放目录,与 设定搜索目录是对应的
-depth 指爬行的深度,这里处于测试的目的,选择深度为 3 ,完全爬行一般可设定为 10 左右
-threads 指定并发的进程 这是设定为 30
-topN 指在每层的深度上所要抓取的最大的页面数, 完全抓取可设为 1 万到 100 万,这取决于网站资源数量

 

G) 从浏览器访问http://localhost:8080 如下

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值