想试试这个,做个内部的搜索看看。
时间长了,之前的一些过程都有些不记得了 所以 想一步步写下来,以作记录。
首先 配置 java,卸载之前的版本,安装合适的版本。
然后,下载下来nutch,按照说明简单配置后,运行出错。
有一个配置错误导致的
在配置conf/regex-urlfilter.txt 时,+^http://([a-z0-9]*\.)*nutch.apache.org/多写了个“.”造成的。
修改后,爬行可以正常运行。
但是,nutch1.2版本后 没有自带搜索,要和solr整合才行。
所以又尝试着安装 使用 solr。
nutch+solr 应该是个 很强大的 搜索引擎,用在我们这个小内网,应该是 大材小用了。
下载solr
修改tomcat的 sever.xml
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8"/>
增加URIEncoding="UTF-8" 。还有说增加设置并发达到上限后的排队数量 acceptCount="400"
解压solr到tomcat下solr文件夹。将solr/dist的solr.war到tomcat/webapps下。
在tomcat/conf/Catalina/localhost目录下 添加 solr.xml文件
内容
<?xml version="1.0" encoding="UTF-8"?>
<Context docBase="usr/local/tomcat/webapps/solr" debug="0" crossContext="true" >
<Environment name="solr/home" type="java.lang.String" value="/usr/local/tomcat/solr/example/solr" override="true" />
</Context>
其中solr/home值设为solr自带的example中的solr文件夹。
重启tomcat后 访问http://localhost:8080/solr会看见solr的界面。进入admin后能看见solr自带example的管理界面
与nutch整合等,继续摸索中~