第七讲
1、indexchecker
bin/nutch indexchecker http://www.163.com
2、安装配置SOLR
wget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgz
tar -xzvf apache-solr-3.6.2.tgz
cd apache-solr-3.6.2/example
复制nutch的conf目录中的schema.xml文件到solr/conf目录
修改solr/conf/solrconfig.xml,将里面所有的<strname="df">text</str>都替换为<strname="df">content</str>
3、运行SOLR并提交索引
启动SOLR服务器
java -jar start.jar &
Web界面
提交索引
bin/nutch solrindex http://host2:8983/solr data/crawldb-linkdb data/linkdb -dir data/segments
4、使用LUKE工具查看索引
5、给SOLR3.6.2配置分词器mmseg4j
wget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip
unzip mmseg4j-1.8.5.zip -d mmseg4j-1.8.5
将mmseg4j-1.8.5/mmseg4j-all-1.8.5-with-dic.jar复制到solr下的lib目录
将schema.xml文件中所有的
<tokenizerclass="solr.WhitespaceTokenizerFactory"/>
和
<tokenizer class="solr.StandardTokenizerFactory"/>
替换为
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="complex"/>