Elasticsearch Analyzer(分词器介绍)

本文介绍了Elasticsearch的文本分析过程,重点讲解Analyzer如何处理分词,包括内置的Standard、Simple、Whitespace、Stop、Keyword和Pattern Analyzer,以及Language Analyzer和自定义的ICU-Analyzer。还提到了中文分词的挑战,并推荐了IK和THULAC两个中文分词器。
摘要由CSDN通过智能技术生成

Elasticsearch Analyzer

前言

Analysis:文本分析是把全文本转换成一系列单词(term/token)的过程,也叫分词。Analysis 是通过 Analyzer 来实现的,可以使用 ES 内置的分析器,也可使用定制的分析器。在写入数据和查询数据的时候,都需要用相同的分析器对语句进行分析。

Analyzer

Analyzer 分词器是专门处理分词的组件,由三部分组成:Character Filters(处理原始文本,例如去除html、特殊字符)、Tokenizer(按照规则切分为单词)、Token Filters(将切分的单词加工,小写、删除 stopwords(停用词),增加同义词)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值