solr的IKAnalyzer中文分词器配置

最新推荐文章于 2024-06-28 10:02:40 发布

谷幽然

最新推荐文章于 2024-06-28 10:02:40 发布

阅读量754

点赞数 1

分类专栏：服务器文章标签： solr服务器 IKAnalyzer 中文分词器 IKAnalyzer分词器 solr中文分词器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiulongshan/article/details/77163903

版权

服务器专栏收录该内容

5 篇文章 0 订阅

订阅专栏

上一篇已经说明了如何搭建solr服务器环境，今天给大家说下我是如何搭建solr的IKAnalyzer中文分词器的。

首先需要说明的是目前solr版本是自带一个中文分词器的，配置较简单且无法自己添加词库(一些新的名词无法更新到索引域)，

此处不做介绍，大家可以咨询度娘。

ok，开始

首先在上一篇文章的基础上需要添加自己的core，步骤如下：

1.在solrhome文件夹下新建一个文件夹，命名为cores（名字可以自己随便取），用于存放自己的core

2.到solr的解压文件路径下server\solr\configsets\sample_techproducts_configs\conf文件夹复制到刚新建的cores文件夹。

然后就可以开始新建分词器了：

第一步：下载IKAnalyzer相关的jar包及配置文件，下载地址: http://download.csdn.net/download/xiulongshan/9931774

解压得到文件目录如下：其中两个jar为中文分词用到的jar包，ext.dic为扩展字典配置文件，用于更新名词到索引域，stopword.dic

为停止配置文件，用于配置分词时用到的停止符或停止字，IKAnalyzer.cfg.xml为分词配置文件，用于将上述jar与文件与solr服务器建立关系。

第二步：可以在ext.dic文件夹下新增自己的扩展词语，例如：尬舞、尬聊、老铁

第三步：将三个配置文件ext.dic、stopword.dic、IKAnalyzer.cfg.xml复制到上一篇文章介绍的tomacat搭建的solr服务器的

webapps/solr/WEB-INF/classes文件夹下

第四步：将olr-analyzer-ik-5.1.0.jar和 ik-analyzer-solr5-5.x.jar两个包复制到omacat搭建的solr服务器的

webapps/solr/WEB-INF/lib文件夹下

第五步：修改solr服务器配置文件，上一篇文章介绍搭建的solrhome路径的F:\solrhome\configsets\basic_configs\conf

下的managed-schema文件，进行如下修改：在</schema>标记前添加如下配置：

<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
</analyzer>
</fieldType>

然后重启tomcat，选择访问http://localhost:8080/solr/index.html进入solr管理界面

然后再点左侧的add core，在name和istanceDir下都输入cores，然后点击add core，如

下说明core添加完成：

第六步：测试分词器

点击界面左侧Analysis，然后再在右侧的Field Value (Index)输入框内输入需要分词的内容，然后

点击Analyse Fieldname / FieldType选择分词器text_ik,

最后点击Analyse Values按钮即可看到分词结果如下：

好了，至此solr服务器基本功能均搭建完成，下一步就是利用solrj对solr服务器进行使用了，具体过程如果需要整理的话，我再酌情整理一下吧。。。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。