Nutch相关框架视频教程8

最新推荐文章于 2014-02-03 19:00:08 发布

默罕默德

最新推荐文章于 2014-02-03 19:00:08 发布

阅读量196

点赞数

分类专栏： Nutch相关框架视频教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangshangchuan/article/details/18910733

版权

Nutch相关框架视频教程专栏收录该内容

19 篇文章 0 订阅

订阅专栏

第八讲

土豆在线视频地址（38分钟）
【视频下载地址】

1、指定LUKE工具的分词器

访问https://code.google.com/p/mmseg4j/downloads/list

下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip

将压缩包里面的dist文件夹里面的jar解压，将解压出来com和data文件夹拖到lukeall-4.0.0-ALPHA.jar里面

启动luke，在Search选项卡的Analysis里面选择com.chenlb.mmseg4j.analysis.ComplexAnalyzer

2、安装配置SOLR4.2

wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz

tar -xzvf solr-4.2.0.tgz

cd solr-4.2.0/example

复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录，改名为schema.xml，覆盖原来文件

修改solr/collection1/conf/schema.xml，在<fields>下增加：<field name="_version_" type="long" indexed="true" stored="true"/>

3、给SOLR4.2配置分词器mmseg4j

wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip

unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d mmseg4j-1.9.1

将mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录
将schema.xml文件中的
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  和
  <tokenizer class="solr.StandardTokenizerFactory"/>
  替换为
  <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>

4、运行SOLR并提交索引

启动SOLR服务器
java -jar start.jar &

Web界面

http://host2:8983

提交索引

bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments

【推荐书籍】

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。