由于elasticSearch版本更新频繁,此笔记适用ES版本为 7.10.2
此笔记摘录自《Elasticsearch搜索引擎构建入门与实战》第一版
文中涉及代码适用于kibana开发工具,其他如es-head则语法会不太相同
elasticSearch学习笔记03-分词
es的分词功能十分强大且复杂,此篇来详细了解
此篇不适合小白入门,不对分词基本概念做过多解释
1.测试分词器
先测试standard分词器看其效果,可看到默认是按照空格分词。
如果分词中文的话就会按照单个字分词,因为并不支持中文。中文的话需要使用其他的分词器。
POST _analyze
{
"analyzer": "standard", // 分词器的名称
"text": "test tokenizer hahaha" // 要测试的分词文本
}
// 结果如下
{
"tokens" : [
{
"token" : "test",
"start_offset" : 0,
"end_offset" : 4,
"type" : "<ALPHANUM>",
"position" : 0
},
{
"token" : "tokenizer",
"start_offset" : 5,
"end_offset" : 14,
"type" : "<ALPHANUM>",
"position" : 1
},
{
"token" : "hahaha",
"start_offset" : 15,
"end_offset" : 21,
"type" : "<ALPHANUM>",
"position" : 2
}
]
}
针对某个现有的字段测试其分词器,例如使用fzy_test_hotel索引的title的分词器测试文本的分词。用处不大。不赘述了。
POST /fzy_test_hotel/_analyze
{
"field": "title",
"text": "test tokenizer hahaha"
}
2.ES内置的分词器
也可自定义分词器。暂不介绍
除stadand分词器外还有这几个分词器
分词器 | 功能 |
---|---|
simple | 按非字母字符进行拆分;例如,逗号空格句号等 |
language | 语言分词器,默认提供了多种语言分词器(绝大部分是拉丁语系),以下举几例:english,french,italian,russian,turkish等 |
whitespace | 空格分词器,根据空格拆分 |
pattern | 根据正则表达式拆分 |
3.索引的分词器
创建索引的时候使用的是默认的分词器是standard分词器。可以在创建索引的时候指定默认分词器。也可单独设置分词器。
PUT /fzy_test_hotel2
{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 5,
"analysis": {
"analyzer": {
"default": {
"type": "simple" // 所有默认的分词器都是simple了
}
}
}
},
"mappings": {
"properties": {
"city": {
"analyzer": "standard", // 单独设置的分词器,覆盖默认效果
"type": "keyword"
},
"price": {
"type": "double"
},
"tag": {
"type": "keyword"
}
}
}
}
除此之外还有个搜索分词器,默认分词器和搜索分词器是一样的。
区别在于,analyzer是新增文档时对文档内容进行拆分创建倒排索引。search_analyzer是对查询的单词进行分词后再去倒排中搜索。如果这两个分词器设置的不一样会出现查询出现奇怪问题的情况。
PUT /fzy_test_hotel2
{
"mappings": {
"properties": {
"city": {
"analyzer": "standard",
"search_analyzer": "standard", // 注意这块
"type": "keyword"
},
"price": {
"type": "double"
},
"tag": {
"type": "keyword"
}
}
}
}
此外还可自定义分词器,还有很多中文分词器(例如IK分词),中文分词比英文复杂的多,不赘述了。