solr学习-单机配置solr环境

转载[url]http://www.douban.com/note/331756147/[/url]
windows linux mac安装过程都是类似的,jdk6和tomcat7的安装省略了,下面说明solr-4.7单机安装步骤
[color=red]solr4.7是最后一个用jdk6的版本,从solr4.8开始用jdk7版本了[/color]

1.去apache官网下载solr-4.7,解压

4. slor安装至tomcat

a. 将该文件夹下面examples下的slor文件夹复制到f:\tomcat下面,作为solr的home目录
[color=red]该solr目录也可以不放在这,也可以单独放到其他目录,只要在下面d步骤中配置好即可[/color]

b. 将该文件夹下面webapps下的solr.war复制到tomcat的webapps目录下,war包在tomcat启动后会自动解压出来

c. 配置solr的data目录,打开f:/tomcat/solr/collection1/conf/solrconfig.xml,修改datadir:
[quote] <dataDir>${solr.data.dir:F:\tomcat\solr\data}</dataDir>[/quote]

d. [color=red]将solr.war注册给tomcat,在f:/tomcat/conf/Catalina/localhost/下创建solr.xml[/color]:
[quote]<?xml version="1.0" encoding="UTF-8"?>

<Context docBase="f:/tomcat/webapps/solr" debug="0" crossContext="true" >
<Environment name="solr/home" type="java.lang.String" value="f:/tomcat/solr" override="true" />
</Context>[/quote]

e. 防止乱码的在tomcat/conf/server.xml中加入;
[html] view plaincopy
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8"/>

f. 将F:\solr\example\lib\ext下的5个jar包和F:\solr\example\resources下的log4j放入tomcat的lib目录下
g. 重新启动tomcat,浏览器中输入:http://localhost:8080/solr:

http://martin3000.iteye.com/blog/807503

[color=red]中文分词器安装[/color]
中文分词在solr里面是没有默认开启的,需要我们自己配置一个中文分词器。目前可用的分词器有smartcn,IK,jeasy,庖丁。其实主要是两种,一种是基于中科院ICTCLAS的隐式马尔科夫HMM算法的中文分词器,如smartcn,ictclas4j,优点是分词准确度高,缺点是不能使用用户自定义词库;另一种是基于最大匹配的分词器,如IK ,Jeasy,庖丁,优点是可以自定义词库,增加新词,缺点是分出来的垃圾词较多。各有优缺点,看应用场合自己衡量选择吧。

[b]配置ik分词[/b]
将IK Analyzer 2012FF_hf1发行包解压,复制IKAnalyzer2012FF_u1.jar到Solr的lib中,如/home/tomcat/webapps/solr/WEB-INF/lib,复制配置文件IKAnalyzer.cfg.xml和ext_stopword.dic到/home/tomcat/webapps/solr/WEB-INF/classes目录中

打开solr/collection1/conf目录,编辑scheme.xml文件,添加下面xml代码
[quote]<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>[/quote]
并且将该文件中的
[quote]<field name="name" type="text_general" indexed="true" stored="true"/>[/quote]
改成
[quote]<field name="name" type="text_ik" indexed="true" stored="true"/>[/quote]

[color=darkred]在扩展词汇时修改IKAnalyzer.cfg.xml文件配置即可,注意修改文件stopword.dic,ext.dic的编码方式为无BOM的UTF-8编码方式[/color]
转载[url]http://blog.csdn.net/shihuacai/article/details/8494360[/url]

[b]配置SmartChinese分词[/b]
将contrib/analysis-extras/lucene-libs/lucene-smartcn-3.5.0.jar复制到/tomcat/webapps/solr/WEB-INF/lib,
打开/tomcat/bin/solr/conf/scheme.xml,编辑text字段类型如下,添加以下代码到shema中的相应位置,就是找到fieldType定义的那一段,在下面多添加
[quote]<fieldType name="text" class="solr.TextField">
<analyzer class="org.apahce.lucene.analysis.cn.smart.SmartChineseAnalyzer"/>
</fieldType>[/quote]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值