通过Analyzer进行分词

最新推荐文章于 2021-12-21 23:03:53 发布

啦啦啦1029

最新推荐文章于 2021-12-21 23:03:53 发布

阅读量188

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wnn1029/article/details/100184867

版权

本文介绍了Analyzer的组成，包括character filters、tokenizer和token filter，并详细列举了elasticsearch的内置分词器，如Standard Analyzer、Simple Analyzer和Stop Analyzer等。还提到了自定义分词器和一些流行的中文分词器，如IK和THULC。

摘要由CSDN通过智能技术生成

通过Analyzer进行分词

- - - Anailzer的组成
    - elasticsearch 的内置分词器

在这里插入图片描述

Anailzer的组成

在这里插入图片描述

character filters : 针对原始文本处理，例如去除html
tokenizer ：按照规切分为单词
token filter 将切分的单词进行加工，小写，删除 stopwords 增加同义词

elasticsearch 的内置分词器

Standard Analyzer - 默认分词器，按词切分，小写处理
Simple Analyzer - 按照非字母切分（符号被过滤），小写处理
Stop Analyzer - 小写处理，停用词过滤（the， a，is）
Whitespace Analyzer - 按照空格切分，不转小写
Keyword Analyzer - 不分词，直接将输入当作输出
Patter Analyzer - 正则表达式，默认\W+（非自负分隔）
Language - 提供了30多种常见语言的分词器

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。