【es学习笔记】对语言进行处理

最新推荐文章于 2024-06-27 14:41:12 发布

xueluo0000

最新推荐文章于 2024-06-27 14:41:12 发布

阅读量718

点赞数

分类专栏： elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xueluo0000/article/details/50260135

版权

elasticsearch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

es内置了多种语言分词器，这些分词器大都扮演4个基本角色。

tokenize-->lowercase-->remove stopwords-->stem

使用英文分词器，可以使用到具体的域中，但是有时一个域中仅适用一个语言分词器并不能满足要求。

例如，I'm not happy about the foxes 使用english分词器的结果是：i'm happi about fox

问题是，使用英文分词器，此内容即匹配fox，同时匹配foxes；not在english分词器中是stopword，被remove，因此即使匹配也无法判断是否存在not，从这个例子可以看出使用english分词器提高了recall，但是precise却差多了。

可以这么解决，对于，例如是title域。1/title/I'm happy for this fox; 2/title/I'm not happy about my fox problem，加入，我如此索引

title:{type:string, "fields":{"english":{"type":"string","analyzer":"english"}}}

在查询时，使用most_field方式查询，那么query = "not happy foxes"

这样，english分词器提高了recall，同时辅助standard分词器，提高precise!

参考：Using Language Analyzers

PS：不算真正的原创吧，因为参考es的官方文档，但是又不是完全的直接翻译，还有自己的理解

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。