Lucene搜索引擎的倒排索引

最新推荐文章于 2022-07-16 18:53:45 发布

YellowMonkey2244

最新推荐文章于 2022-07-16 18:53:45 发布

阅读量195

点赞数 1

文章标签： lucene elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44805757/article/details/114403568

版权

Lucene最核心的部分是倒排索引

什么是倒排索引？

根据属性的值来查找记录，这种索引表中的每一项都包含一个属性值和该属性值的记录地址，由于不是由记录来确定属性值而是有属性值来确定记录的位置，因此被称为倒排索引。就像新华词典，将关键词作为目录，根据目录查找关键词的位置信息从而获取内容的位置。

如何建立倒排索引？

在这里插入图片描述
Lucene会根据关键词索引和查询，先根据文章内容分词，将一些没有意义的单词和标点符号会过滤掉，如in，once，too等，还会将文章单词的大小写进行统一处理以满足用户查找时输入单词不区分大小写的情况，另外他还会将“lived”，“lives”等通通还原成”live“，这些都是由Lucene中的Analyzer类来处理的。

处理之后的结果为：

在这里插入图片描述
通过以上的结果就可以建立倒排索引：

在这里插入图片描述
倒排索引是根据关键词字符顺序排列的

如何实现搜索？

Lucene将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件(positions)保存。其中词典文件不仅保存了关键词，还保存了指向频率文件和文件位置的指针，通过指针可找到它的频率信息和位置信息。

假设现在要查找live，Lucene先对词典二元查找，找到该词后，通过指针找到频率文件读出文章号，这样就通过关键词查出了整个文章内容。如果通过普通逻辑的查找，会对所有文章进行字符串匹配，如果在数据量大的情况下，这样的查找会相当耗费时间。

文章总结自《Elasticsearch技术解析与实战》
欢迎各位来讨论区一起交流…

YellowMonkey2244

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Lucene搜索引擎的倒排索引

Lucene最核心的部分是倒排索引什么是倒排索引？根据属性的值来查找记录，这种索引表中的每一项都包含一个属性值和该属性值的记录地址，由于不是由记录来确定属性值而是有属性值来确定记录的位置，因此被称为倒排索引。就像新华词典，将关键词作为目录，根据目录查找关键词的位置信息从而获取内容的位置。如何建立倒排索引？Lucene会根据关键词索引和查询，先根据文章内容分词，将一些没有意义的单词和标点符号会过滤掉，如in，once，too等，还会将文章单词的大小写进行统一处理以满足用户查找时输入单词不区分大小写的
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。