Lucene结构分析

最新推荐文章于 2020-05-31 20:56:42 发布

牛麦康纳

最新推荐文章于 2020-05-31 20:56:42 发布

阅读量713

点赞数

分类专栏： ElasticSearch 文章标签： lucene 索引

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yejingtao703/article/details/78105237

版权

ElasticSearch 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

如图是Lucene生成索引的一个实例，主要分为以下几个层次：

索引（Index）：

一个索引实例就是一个文件夹，该文件夹中所有文件都属于同一个索引。

段（Segment）：

一个索引包含1~N个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以合并。

具有相同前缀文件的属同一个段，图中共两个段"_0" 和 "_1"。

segments.gen 和 segments_5 是段的元数据文件，也即它们保存了段的属性信息。

文档（Document）：

文档是我们建索引的基本单位，不同的文档是保存在不同的段中的，一个段可以包含多篇文档。

域(Field)：

不同类型的信息，可以分开索引，比如标题，时间，正文，作者等，都可以保存在不同的域里，不同域的索引方式可以不同。

词（Term）：

索引的最小单位，是经过词法分析和语言处理后的字符串。

乍一看这5个定义有些迷糊，我们需要接触下面这个图来加深了解：

1，一个索引中包含的segment.gensegment_n保存的是段的元数据信息，还包含多个段（segment）内容，每个段内容是由多个相同前缀文件组成的。

2，每个段是由域信息（Field information）、词信息（Term information）、以及其它信息（标准化因子、删除文档）组成的。

3，域信息也分为元数据信息(.fnm)和数据信息(.fdx,.fdt)

4，词信息分为词典(.tis,tii)、文档号以及词频倒排表、词位置倒排表。（反向信息）

5，NomalizationInfo（标准化因子），我们在原理篇中提到过df越小tf越大排序越是靠前，但其实有不严谨的地方。一本1000页的工具书中一个词出现过100次，而一篇两页的论文里这个词出现过50次，显然论文比工具书排名应该要靠前。所以有了标准因子这个概念，它与tf、df一起参与计算打分决定索引搜索的最终排名。

整个看下来跟文档（Document）这个概念没什么关系了，我个人是这么理解的，文档本身就可以由域组成，标题，时间，正文，作者等，都可以保存在不同的域里，正向的存储时是要维护到文档ID和域ID的元数据关系信息，保存域也就相当于保存文档。同理，反向索引通过词也可以找得到文档ID。所以文档这个概念在索引中的体现就是域和文档ID。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

牛麦康纳

CSDN认证博客专家 CSDN认证企业博客

码龄16年

221: 原创

1万+: 周排名

2万+: 总排名

74万+: 访问

: 等级

7893: 积分

730: 粉丝

427: 获赞

227: 评论

1119: 收藏

私信

关注

热门文章

分类专栏

kubernetes-叶工好容 7篇
混沌工程 6篇
API网关 8篇
应届求职 4篇
金丝雀分析 1篇
自动化测试 1篇
互联网 23篇
Spring boot 6篇
CSDN 2篇
Spring cloud 12篇
Spring微服务 5篇
Docker 6篇
MQ 3篇
ElasticSearch 14篇
Http与信息安全 11篇
Linux 11篇
Java 13篇
Redis 6篇
Python 17篇
算法 10篇
机器学习 16篇
深度学习 6篇
数据库 3篇
OpenStack 2篇
ansible 2篇
Terraform 1篇
云计算 10篇
持续集成 14篇
Spinnaker 18篇

最新评论

叶工好容2-云原生网络
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://test-cms-ccloud.csdn.net/ccloud/topics/600592700。
叶工好容2-云原生网络
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/615225413。
LinkedHashMap引发的内存泄漏以及解决过程
secowo: removeEldestEntry 并发的时候为什么不生效呢？按照逻辑来说，只要有超过限制的值输入，那么就会把他移除掉
Jenkins Pipeline的实战详解
asaKing2: 作者你好，请问你这个jenkins脚本是写在jenkinsfile吗
Spring Cloud Gateway VS Netflix Zuul2
山野小生: 写的真好，涨知识了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。