【es学习笔记】对语言进行处理

es内置了多种语言分词器,这些分词器大都扮演4个基本角色。
tokenize-->lowercase-->remove stopwords-->stem
使用英文分词器,可以使用到具体的域中,但是有时一个域中仅适用一个语言分词器并不能满足要求。
例如,I'm not happy about the foxes 使用english分词器的结果是:i'm happi about fox
问题是,使用英文分词器,此内容即匹配fox,同时匹配foxes;not在english分词器中是stopword,被remove,因此即使匹配也无法判断是否存在not,从这个例子可以看出使用english分词器提高了recall,但是precise却差多了。
可以这么解决,对于,例如是title域。1/title/I'm happy for this fox; 2/title/I'm not happy about my fox problem,加入,我如此索引
title:{type:string, "fields":{"english":{"type":"string","analyzer":"english"}}}
在查询时,使用most_field方式查询,那么query = "not happy foxes"

这样,english分词器提高了recall,同时辅助standard分词器,提高precise!

参考:Using Language Analyzers

PS:不算真正的原创吧,因为参考es的官方文档,但是又不是完全的直接翻译,还有自己的理解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值