elasticSearch学习笔记03-分词

弃疗咸鱼的笔记

已于 2022-05-16 00:07:11 修改

阅读量3.1k

点赞数

文章标签： elasticsearch

于 2022-04-26 22:33:43 首次发布

本文链接：https://blog.csdn.net/weixin_45444673/article/details/124439078

版权

由于elasticSearch版本更新频繁，此笔记适用ES版本为 7.10.2

此笔记摘录自《Elasticsearch搜索引擎构建入门与实战》第一版

文中涉及代码适用于kibana开发工具，其他如es-head则语法会不太相同

elasticSearch学习笔记03-分词

es的分词功能十分强大且复杂，此篇来详细了解
此篇不适合小白入门，不对分词基本概念做过多解释

1.测试分词器

先测试standard分词器看其效果，可看到默认是按照空格分词。
如果分词中文的话就会按照单个字分词，因为并不支持中文。中文的话需要使用其他的分词器。

POST _analyze
{
  "analyzer": "standard",  // 分词器的名称
  "text": "test tokenizer hahaha"  // 要测试的分词文本
}

// 结果如下
{
  "tokens" : [
    {
      "token" : "test",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "tokenizer",
      "start_offset" : 5,
      "end_offset" : 14,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "hahaha",
      "start_offset" : 15,
      "end_offset" : 21,
      "type" : "<ALPHANUM>",
      "position" : 2
    }
  ]
}

针对某个现有的字段测试其分词器，例如使用fzy_test_hotel索引的title的分词器测试文本的分词。用处不大。不赘述了。

POST /fzy_test_hotel/_analyze
{
  "field": "title",
  "text": "test tokenizer hahaha"
}

2.ES内置的分词器

也可自定义分词器。暂不介绍
除stadand分词器外还有这几个分词器

分词器	功能
simple	按非字母字符进行拆分；例如，逗号空格句号等
language	语言分词器,默认提供了多种语言分词器(绝大部分是拉丁语系),以下举几例:english,french,italian,russian,turkish等
whitespace	空格分词器，根据空格拆分
pattern	根据正则表达式拆分

3.索引的分词器

创建索引的时候使用的是默认的分词器是standard分词器。可以在创建索引的时候指定默认分词器。也可单独设置分词器。

PUT /fzy_test_hotel2
{
  "settings": {
    "number_of_shards": 5,
    "number_of_replicas": 5,
    "analysis": {
      "analyzer": {
        "default": {
          "type": "simple"   // 所有默认的分词器都是simple了
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "city": {
        "analyzer": "standard",   // 单独设置的分词器，覆盖默认效果
        "type": "keyword"
      },
      "price": {
        "type": "double"
      },
      "tag": {
        "type": "keyword"
      }
    }
  }
}

除此之外还有个搜索分词器，默认分词器和搜索分词器是一样的。
区别在于，analyzer是新增文档时对文档内容进行拆分创建倒排索引。search_analyzer是对查询的单词进行分词后再去倒排中搜索。如果这两个分词器设置的不一样会出现查询出现奇怪问题的情况。

PUT /fzy_test_hotel2
{
  "mappings": {
    "properties": {
      "city": {
        "analyzer": "standard", 
        "search_analyzer": "standard",   // 注意这块
        "type": "keyword"
      },
      "price": {
        "type": "double"
      },
      "tag": {
        "type": "keyword"
      }
    }
  }
}

此外还可自定义分词器，还有很多中文分词器(例如IK分词)，中文分词比英文复杂的多，不赘述了。

弃疗咸鱼的笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
elasticSearch学习笔记03-分词

由于elasticSearch版本更新频繁，此笔记适用ES版本为 7.10.2此笔记摘录自《Elasticsearch搜索引擎构建入门与实战》第一版文中涉及代码适用于kibana开发工具，其他如es-head则语法会不太相同elasticSearch学习笔记03-分词es的分词功能十分强大且复杂，此篇来详细了解...
复制链接

扫一扫