倒排索引学习笔记

概述

顺序扫描法(正向搜索法)
  • 举个例子:比如我们有大量的文件,文件编号从A,B,C。。。。。。

  • 需求:要找出文件内容中包含有java的所有文件

  • 需求实现:从A文件开始查找,再找B文件,然后再找C文件,以此类推。。。。。

    弊端:如果文件数量很多,查找速度慢!!!

倒排索引法(反向/倒排搜索法)
  • 举个例子:使用新华字典查找汉字,先找到汉字的偏旁部首,再根据偏旁部首对应的目录(索引)找到目标汉字。
  • 在这里插入图片描述
    在这里插入图片描述

一、倒排索引法中,索引包括哪些内容?

索引的内容包括:

1)文档(Document):需要被搜索到的内容

2)词条(Terms):把文档内容通过分词器分成词条(词条是方便用户搜索使用的)

3)文档的编号和词条频率:记录每个词条在哪个文档出现过,出现过几次。

4)词条出现的文档位置: 每个词条在文档哪个位置出现过。

二、如何使用倒排索引法搜索数据?

​ 1)先建立索引库:建立词条,词条在文档出现的频率及位置等信息。

​ 2)用户通过搜索索引库获取文档:搜索到索引库中的词条,再根据词条反向获取文档(记录)数据。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值