Elasticsearch分词器介绍、内置分词器及配置中文分词器

最新推荐文章于 2024-06-03 18:25:02 发布

迷途码界

最新推荐文章于 2024-06-03 18:25:02 发布

阅读量3k

点赞数

分类专栏： elasticsearch Elasticsearch原理解析及应用

本文链接：https://blog.csdn.net/zx711166/article/details/81530838

版权

Elasticsearch原理解析及应用同时被 2 个专栏收录

51 篇文章 26 订阅

订阅专栏

elasticsearch

28 篇文章 6 订阅

订阅专栏

1、分词器、

分词器是从一串文本中切分一个个的词条，并对每个词条进行标准化，包含三个部分：

character filter：分词之前的预处理，过滤掉HTML标签、特殊符号转换（例如，将&符号转换成and、将|符号转换成or）等。
tokenizer：分词
token filter：标准化

2、内置分词器

standard分词器：（默认的）它将词汇单元转换成小写形式，并去掉停用词（a、an、the等没有实际意义的词）和标点符号，支持中文采用的方法为单字切分（例如，‘你好’切分为‘你’和‘好’）。
simple分词器：首先通过非字母字符来分割文本信息，然后将词汇单元同一为小写形式。该分析器会去掉数字类型的字符。
Whitespace分词器：仅仅是去除空格，对字符没有lowcase（大小写转换）化，不支持中文；并且不对生成的词汇单元进行其他的标准化处理。
language分词器：特定语言的分词器，不支持中文。

3、配置中文分词器（ayalysis-ik）

//下载中文分词器https://github.com/medcl/elasticsearch-ayalysis-ik
git clone https://github.com/medcl/elasticsearch-ayalysis-ik

//解压elasticsearch-ayalysis-ik-master.zip
unzip elasticsearch-ayalysis-ik-master.zip

//进入elasticsearch-ayalysis-ik-master，编译源码(这里使用maven进行编译（需要提前安装配置maven），Dmaven.test.skip=true是跳过测试)
mvn clean install —Dmaven.test.skip=true

//在es的plugins目录下创建ik目录
mkdir ik

//将编译后生成的elasticsearch-analysis-ik-版本.zip移动至ik目录下，并解压即可
cp elasticsearch-analysis-ik-版本.zip /opt/elasticsearch/plugins/ik
unzip elasticsearch-analysis-ik-版本.zip

Centos7-Minimal 版编译安装maven

迷途码界

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch分词器介绍、内置分词器及配置中文分词器

1、分词器、分词器是从一串文本中切分一个个的词条，并对每个词条进行标准化，包含三个部分：character filter：分词之前的预处理，过滤掉HTML标签、特殊符号转换（例如，将&amp;amp;amp;符号转换成and、将|符号转换成or）等。tokenizer：分词token filter：标准化2、内置分词器standard分词器：（默认的）它将词汇单元转换成小写形式，并去...
复制链接

扫一扫