Lucene最核心的部分是倒排索引
什么是倒排索引?
根据属性的值来查找记录,这种索引表中的每一项都包含一个属性值和该属性值的记录地址,由于不是由记录来确定属性值而是有属性值来确定记录的位置,因此被称为倒排索引。就像新华词典,将关键词作为目录,根据目录查找关键词的位置信息从而获取内容的位置。
如何建立倒排索引?
Lucene会根据关键词索引和查询,先根据文章内容分词,将一些没有意义的单词和标点符号会过滤掉,如in,once,too等,还会将文章单词的大小写进行统一处理以满足用户查找时输入单词不区分大小写的情况,另外他还会将“lived”,“lives”等通通还原成”live“,这些都是由Lucene中的Analyzer类来处理的。
处理之后的结果为:
通过以上的结果就可以建立倒排索引:
倒排索引是根据关键词字符顺序排列的
如何实现搜索?
Lucene将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件(positions)保存。其中词典文件不仅保存了关键词,还保存了指向频率文件和文件位置的指针,通过指针可找到它的频率信息和位置信息。
假设现在要查找live,Lucene先对词典二元查找,找到该词后,通过指针找到频率文件读出文章号,这样就通过关键词查出了整个文章内容。如果通过普通逻辑的查找,会对所有文章进行字符串匹配,如果在数据量大的情况下,这样的查找会相当耗费时间。
文章总结自《Elasticsearch技术解析与实战》
欢迎各位来讨论区一起交流…