nutch_solr


tomcat+solr+nutch


1、home/nutch/文档/solr-4.10.0/example/webapps/solr.war 移到tomcat的webapps下
2、运行tomcat/bin下的startup.sh
3、关闭shutdown.sh
4、复制/home/nutch/文档/solr-4.10.0/example/lib下所有的jar包到
/home/nutch/文档/apache-tomcat-6.0.41/webapps/solr/WEB-INF/lib目录下
5、复制home/nutch/文档/solr-4.10.0/example/solr文件夹到tomcat目录下
6、将nutch的conf目录下的schmel.xml(schmel—solr4.xml)复制到/home/nutch/文档/apache-tomcat6.0.41/solr/collection1/conf 目录下。并改名schmel.xml
7、351行添加: 
<field name="_version_" type="long" indexed="true" stored="true"/> 
8\修改/home/nutch/文档/apache-tomcat-6.0.41/webapps/solr/WEB-INF/目录下的web.xml
去掉注释并修改
<env-entry>
  
      <env-entry-name>solr/home</env-entry-name>
     
  <env-entry-value>F:/apache-tomcat-6.0.41/solr</env-entry-value>
        <env-entry-type>java.lang.String</env-entry-type>
   
</env-entry>

9、删除历史索引:关闭tomcat-删除 /home/nutch/文档/apache-tomcat6.0.41/solr/collection1/data/index、tlog下的文件(注意: 不是删除这两个文件夹)、删除完重启tomcat即可。



Linux机子访问: 
http://localhost:8983/solr/#/collection1/query
其他机子访问:  
http://192.168.0.84:8983/solr/#/collection1/query


生成索引:     
./nutch  solrindex http://127.0.0.1:8983/solr/ out/crawldb  out/segments/*
启动solr:  
java -jar start.jar
java -jar post.jar '<delete><id>3007wfp</id></delete>'




1.7以下版本 :
Crawl urls [-dir d] [-threads n] [-depth i] [-topN N]
Crawl urls -solr http://192.168.0.84:8080/solr/ -dir out -depth 2


1.9版本:      
crawl urls out http://127.0.0.1:8983/solr/collection1  2




nohup  ./crawl urls out http://192.168.0.84:8080/solr/ 5


$ bin/nutch readdb out/crawldb -stats 则输出统计信息


       使用方法:   bin/nutch readdb <crawldb> (-stats | -dump <out_dir> | -url <url>) 
参数说明:         
<crawldb>:crawldb目录. 
  [-stats]::在控制台打印所有的统计信息 
  [-dump <out_dir>]:导出crawldb信息到指定文件夹中的文件
  [-url <url>]:打印指定URL的统计信息
DB_unfetched:链接到已爬取页面,但还没有被爬取的页面数
DB_gone:表示发生了404错误或者其他一些臆测的错误,这种 状态阻止了对其以后的爬取工作。
DB_fetched表示已爬取和索引的页面,如果其值为0,那肯定出错了。






注入新URL到crawldb中。 


bin/nutch injector <crawldb> <urldir>             
    参数说明:  <crawldb>:crawldb文件夹  
<urldir>:保存有URL的文件的文件夹目录 








每一轮耗时
此轮处理url数量
新增有效数量






[nutch@MCNA 桌面]$ jps -mlv
26144 sun.tools.jps.Jps -mlv -Denv.class.path=.:/usr/java/jdk1.7.0_51/lib/dt.jar:/usr/java/jdk1.7.0_51/lib/tools.jar:/usr/java/jdk1.7.0_51/jre/lib -Dapplication.home=/usr/java/jdk1.7.0_51 -Xms8m
25356 start.jar
[nutch@MCNA 桌面]$ kill -9 25356
[nutch@MCNA bin]$ tail -f ../logs/catalina.out 
[nutch@MCNA bin]$ sh startup.sh
[nutch@MCNA bin]$ sh shutdown.sh















nutch插件开发教程:
1、将nutch导入Eclipse工程
2、从源码apache-nutch-1.9\src\plugin中,复制一个原有插件,粘贴改名
3、修改该插件的build.xml、plugin.xml
4、打开本插件的src,右键java --> build path --> use as sourse folder
5、将自己写的插件ID写入nutch-default,<name>plugin.includes</name>下
6、如果要替换自带插件,在parse-plugins.中进行更改




nutch1.9新加插件、部署教程

1、将parse-savedata,index-time拷入:源码apache-nutch-1.9\src\plugin中
2、修改:源码apache-nutch-1.9\build.xml
添加: <packageset dir="${plugins.dir}/index-time/src/java"/>等(共3个)
      <packageset dir="${plugins.dir}/parse-savedata/src/java"/>等(共3个)
3、修改:源码apache-nutch-1.9\src\plugin\build.xml
  添加: <ant dir="index-time" target="deploy"/>等(共3个)
<ant dir="parse-savedata" target="deploy"/>等(共3个)
4、通过wiscp,复制nutch1.9到Linux的文档中、
5、Linux中进入nucth1.9中,ant
6、把文档/file/中的文件拷贝到对应位置
7、urls.拷贝到bin/目录下。通过chmod 755 *命令对目录下的文件设置相应权限。
8、然后通过./crawl urls out http://127.0.0.1:8983/solr/collection1  2
  进行数据爬取。






该网站的页面内容采用truncate的方式分段返回,而nutch的默认设置是不处理这种方式的,需要打开之,修改conf/nutch-site.xml,在里面增加一个 parser.skip.truncated 属性: 
<property>  
  <name>parser.skip.truncated</name>  
  <value>false</value>  
</property> 






遇到id长度>767时,在package org.apache.nutch.crawl.DbUpdateReducer 87行后增加
 if(url.length()>767)
      {
     return;
      }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值