分词器
![alt](https://img-blog.csdnimg.cn/img_convert/9d1a909ac853c18b52f28bf61c15eea0.jpeg)
Analysis 和 Analyzer
Analysis
: 文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词(Analyzer)。Analysis是通过Analyzer来实现的。分词就是将文档通过Analyzer分成一个一个的Term(关键词查询),每一个Term都指向包含这个Term的文档
。
Analyzer 组成
-
注意: 在ES中默认使用标准分词器: StandardAnalyzer 特点: 中文单字分词 单词分词
我是中国人 this is good man----> analyzer----> 我 是 中 国 人 this is good man
分析器(analyzer)都由三种构件组成的:
character filters
,tokenizers
,token filters
。
-
character filter
字符过滤器-
在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html标签( hello --> hello),& --> and(I&you --> I and you)
-
-
tokenizers
分词器