Lucene搜索引擎的倒排索引

Lucene最核心的部分是倒排索引

什么是倒排索引?

根据属性的值来查找记录,这种索引表中的每一项都包含一个属性值和该属性值的记录地址,由于不是由记录来确定属性值而是有属性值来确定记录的位置,因此被称为倒排索引。就像新华词典,将关键词作为目录,根据目录查找关键词的位置信息从而获取内容的位置。

如何建立倒排索引?

在这里插入图片描述
Lucene会根据关键词索引和查询,先根据文章内容分词,将一些没有意义的单词和标点符号会过滤掉,如in,once,too等,还会将文章单词的大小写进行统一处理以满足用户查找时输入单词不区分大小写的情况,另外他还会将“lived”,“lives”等通通还原成”live“,这些都是由Lucene中的Analyzer类来处理的。

处理之后的结果为:

在这里插入图片描述
通过以上的结果就可以建立倒排索引:

在这里插入图片描述
倒排索引是根据关键词字符顺序排列的

如何实现搜索?

Lucene将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件(positions)保存。其中词典文件不仅保存了关键词,还保存了指向频率文件和文件位置的指针,通过指针可找到它的频率信息和位置信息。

假设现在要查找live,Lucene先对词典二元查找,找到该词后,通过指针找到频率文件读出文章号,这样就通过关键词查出了整个文章内容。如果通过普通逻辑的查找,会对所有文章进行字符串匹配,如果在数据量大的情况下,这样的查找会相当耗费时间。

文章总结自《Elasticsearch技术解析与实战》
欢迎各位来讨论区一起交流…

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值