nutch solr系列之（三）solr 4.8.1 支持中文分词

最新推荐文章于 2024-09-18 14:31:07 发布

巨峰

最新推荐文章于 2024-09-18 14:31:07 发布

阅读量372

点赞数 1

分类专栏： nutch与solr 文章标签： solr

本文链接：https://blog.csdn.net/xzf19901108/article/details/78276435

版权

nutch与solr 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

 
 1、将solr 4.8.1中solr-4.8.1\contrib\analysis-extras\lucene-libs下的lucene-analyzers-smartcn-4.8.1.jar包拷贝到tomcat的solr部署文件夹的lib目录（tomcat-8.5.9\webapps\solr\WEB-INF\lib）下 

 
 2、修改tomcat中solr的配置文件schema.xml（tomcat-8.5.9\solr\collection1\conf目录下） 

  2.1 在types节点中添加如下内容： 

  <fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100"> 

  <analyzer type="index"> 

  <!-- 此处需要配置主要的分词类 --> 

  <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/> 

  <!-- 

  <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> 

  <filter class="solr.LowerCaseFilterFactory"/> 

-->

  <!-- in this example, we will only use synonyms at query time 

  <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/> 

-->

  <filter class="solr.SmartChineseWordTokenFilterFactory"/> 

  </analyzer> 

  <analyzer type="query"> 

  <!-- 此处配置同上 --> 

  <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/> 

  <!-- 

  <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> 

  <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 

  <filter class="solr.LowerCaseFilterFactory"/> 

-->

  <filter class="solr.SmartChineseWordTokenFilterFactory"/> 

  </analyzer> 

  </fieldType> 

  2.2 在fields节点中添加如下内容： 

  <field name="name_ik" type="text_smart" indexed="true" stored="true" multiValued="false" /> 

  其中field的type的值就是引用上面fieldType 的name值。 

 
 3、访问solr进行验证 

巨峰

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录