关于全文检索的归并的算法总结：

最新推荐文章于 2023-03-13 22:30:46 发布

羊小丸子

最新推荐文章于 2023-03-13 22:30:46 发布

阅读量1.8k

点赞数

文章标签：全文检索算法 generation 文档 tree 存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingfu9966/article/details/1863070

版权

关于全文检索的归并的算法总结：

最近搜集了不少全文检索的资料，林林总总，各色各异，有 IR 的基本知识，有开源软件的介绍，等等。但是最吸引我的还是索引的动态维护，毕竟现在是个信息大爆炸的时代，高性能的索引动态维护已经成为时代的需要。

今天对全文检索的归并算法进行了总结，自成一言，可能对，也可能理解的有差别，还希望大家提出宝贵的意见，还希望各位大“家”海涵。在这里，我先谢过了！

我理解现在的归并面临的最紧迫要解决的问题就是避免出现“ 15M 和 15G 归并”的情况，所有的归并的算法都是围绕这样一种情况进行的。请注意，我在这篇文章里会多次出现“ 15M 和 15G 归并”这几个字眼，我相信对全文检索深入了解的人都能明白我的意思。

在 IR 发展的初期出现的归并，我称为三角形归并。

第一类：三角形归并

为什么称为三角形归并呢？就是因为最终都归并成一个文件，永远不会出现 2 个文件的情况。

1．立即归并

这种情况下，比较坏的地方就是多次归并以后就会出现类似 15M 和 15G 归并的情况。

归并树的情况如图：黑色或灰色的代表由于内存不够写到硬盘的临时文件，白色的表示归并的过程中生成的临时文件，紫色的代表经过归并最终产生的索引文件。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
关于全文检索的归并的算法总结：

关于全文检索的归并的算法总结：最近搜集了不少全文检索的资料，林林总总，各色各异，有IR的基本知识，有开源软件的介绍，等等。但是最吸引我的还是索引的动态维护，毕竟现在是个信息大爆炸的时代，高性能的索引动态维护已经成为时代的需要。今天对全文检索的归并算法进行了总结，自成一言，可能对，也可能理解的有差别，还希望大家提出宝贵的意见，还希望各位大“家”海涵。在这里，我先谢过了！
复制链接

扫一扫

羊小丸子 CSDN认证博客专家 CSDN认证企业博客

码龄17年

49: 原创

105万+: 周排名

37万+: 总排名

15万+: 访问

: 等级

2112: 积分

82: 粉丝

9: 获赞

77: 评论

8: 收藏

私信

关注

热门文章

分类专栏

技术 13篇
生活 7篇

最新评论

上班几天了。。
从吾所好: 越来越感觉您是个高手。。。很自信的那种
说说我来北京面试的几次遭遇经历。
六月安宝: 不是说去这些公司最大的挑战就是面试吗？进去之后可能就是平平淡淡，毕竟平台大了，工作细了。但是大牛就另当别论
上班几天了。。
习_霜: 那干嘛要做测试？我之前就是做了一年半的测试，真心觉得没意思，乏味，所以不干了，准备去做开发。
说说我来北京面试的几次遭遇经历。
zack_kane: 大姐好犀利
上班一周了
zack_kane: 很庆幸，我在北京的的工作的时候同事都很友好谦虚

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。