nutch_solr

最新推荐文章于 2021-01-28 09:35:22 发布

IDonng、

最新推荐文章于 2021-01-28 09:35:22 发布

阅读量477

点赞数

本文链接：https://blog.csdn.net/z90818/article/details/42644559

版权

tomcat+solr+nutch

1、home/nutch/文档/solr-4.10.0/example/webapps/solr.war 移到tomcat的webapps下
2、运行tomcat/bin下的startup.sh
3、关闭shutdown.sh
4、复制/home/nutch/文档/solr-4.10.0/example/lib下所有的jar包到
/home/nutch/文档/apache-tomcat-6.0.41/webapps/solr/WEB-INF/lib目录下
5、复制home/nutch/文档/solr-4.10.0/example/solr文件夹到tomcat目录下
6、将nutch的conf目录下的schmel.xml（schmel—solr4.xml）复制到/home/nutch/文档/apache-tomcat6.0.41/solr/collection1/conf 目录下。并改名schmel.xml
7、351行添加：
<field name="_version_" type="long" indexed="true" stored="true"/>
8\修改/home/nutch/文档/apache-tomcat-6.0.41/webapps/solr/WEB-INF/目录下的web.xml
去掉注释并修改
<env-entry>

<env-entry-name>solr/home</env-entry-name>

<env-entry-value>F:/apache-tomcat-6.0.41/solr</env-entry-value>
<env-entry-type>java.lang.String</env-entry-type>

</env-entry>

9、删除历史索引：关闭tomcat-删除 /home/nutch/文档/apache-tomcat6.0.41/solr/collection1/data/index、tlog下的文件（注意：不是删除这两个文件夹）、删除完重启tomcat即可。

Linux机子访问：
http://localhost:8983/solr/#/collection1/query
其他机子访问：
http://192.168.0.84:8983/solr/#/collection1/query

生成索引：
./nutch solrindex http://127.0.0.1:8983/solr/ out/crawldb out/segments/*
启动solr：
java -jar start.jar
java -jar post.jar '<delete><id>3007wfp</id></delete>'

1.7以下版本：
Crawl urls [-dir d] [-threads n] [-depth i] [-topN N]
Crawl urls -solr http://192.168.0.84:8080/solr/ -dir out -depth 2

1.9版本：
crawl urls out http://127.0.0.1:8983/solr/collection1 2

nohup ./crawl urls out http://192.168.0.84:8080/solr/ 5

$ bin/nutch readdb out/crawldb -stats 则输出统计信息

使用方法： bin/nutch readdb <crawldb> (-stats | -dump <out_dir> | -url <url>)
参数说明：
<crawldb>：crawldb目录.
[-stats]:：在控制台打印所有的统计信息
[-dump <out_dir>]：导出crawldb信息到指定文件夹中的文件
[-url <url>]：打印指定URL的统计信息
DB_unfetched：链接到已爬取页面,但还没有被爬取的页面数
DB_gone：表示发生了404错误或者其他一些臆测的错误，这种状态阻止了对其以后的爬取工作。
DB_fetched表示已爬取和索引的页面，如果其值为0，那肯定出错了。

注入新URL到crawldb中。

bin/nutch injector <crawldb> <urldir>
参数说明： <crawldb>：crawldb文件夹
<urldir>：保存有URL的文件的文件夹目录

每一轮耗时
此轮处理url数量
新增有效数量

[nutch@MCNA 桌面]$ jps -mlv
26144 sun.tools.jps.Jps -mlv -Denv.class.path=.:/usr/java/jdk1.7.0_51/lib/dt.jar:/usr/java/jdk1.7.0_51/lib/tools.jar:/usr/java/jdk1.7.0_51/jre/lib -Dapplication.home=/usr/java/jdk1.7.0_51 -Xms8m
25356 start.jar
[nutch@MCNA 桌面]$ kill -9 25356
[nutch@MCNA bin]$ tail -f ../logs/catalina.out
[nutch@MCNA bin]$ sh startup.sh
[nutch@MCNA bin]$ sh shutdown.sh

nutch插件开发教程：
1、将nutch导入Eclipse工程
2、从源码apache-nutch-1.9\src\plugin中，复制一个原有插件，粘贴改名
3、修改该插件的build.xml、plugin.xml
4、打开本插件的src，右键java --> build path --> use as sourse folder
5、将自己写的插件ID写入nutch-default，<name>plugin.includes</name>下
6、如果要替换自带插件，在parse-plugins.中进行更改

nutch1.9新加插件、部署教程

1、将parse-savedata，index-time拷入：源码apache-nutch-1.9\src\plugin中
2、修改:源码apache-nutch-1.9\build.xml
添加： <packageset dir="${plugins.dir}/index-time/src/java"/>等（共3个）
<packageset dir="${plugins.dir}/parse-savedata/src/java"/>等（共3个）
3、修改：源码apache-nutch-1.9\src\plugin\build.xml
添加： <ant dir="index-time" target="deploy"/>等（共3个）
<ant dir="parse-savedata" target="deploy"/>等（共3个）
4、通过wiscp，复制nutch1.9到Linux的文档中、
5、Linux中进入nucth1.9中，ant
6、把文档/file/中的文件拷贝到对应位置
7、urls.拷贝到bin/目录下。通过chmod 755 *命令对目录下的文件设置相应权限。
8、然后通过./crawl urls out http://127.0.0.1:8983/solr/collection1 2
进行数据爬取。

该网站的页面内容采用truncate的方式分段返回，而nutch的默认设置是不处理这种方式的，需要打开之，修改conf/nutch-site.xml，在里面增加一个 parser.skip.truncated 属性:
<property>
<name>parser.skip.truncated</name>
<value>false</value>
</property>

遇到id长度>767时，在package org.apache.nutch.crawl.DbUpdateReducer 87行后增加
if(url.length()>767)
{
return;
}