倒排索引的介绍

倒排索引的原理:

想要了解倒排索引就要先了解正排索引
简单点来说:正排索引就是通过文档去找关键词,倒排索引就是通过关键词去找文档

正排索引

只有正排索引就是搜索所有的文档,再在文档中去找到所有的关键词,再去将这些带有关键词的文档展现给用户。

正排索引举例:
当用户在主页上搜索关键词“华为手机”时,如果只存在正向索引(forward index),那么就需要扫描索引库中的所有文档,找出所有包含关键词“华为手机”的文档,然后将这些文档排出名次后,呈现给用户。
但是互联网上保存的文档数目特别多,所以这样的索引结构根本无法满足实时返回结果的要求。

倒排索引

倒排索引就是通过关键词去获取包含该关键词的文档的id,在将相应的文档的相应的信息展示给用户。

倒排索引举例:
当用户在主页上搜索关键词“华为手机”时,会先通过分词,将"华为手机"分词成"华为",“手机”,“华”,"为"等。 在通过这些关键词,找到包含这些关键词的文档的id,在将文档展示给用户。

流程
倒排索引记录了关键词的id,再通过关键词的id查找到文档的id,通过文档的id查找到相应的数据。

除了这些之外,索引系统还可以记录除此之外的更多信息。
​ 比如:在单词对应的文档列表/倒排列表中,不仅记录了文档ID,还可以记载单词的频率信息(TF)和位置信息。
​ 频率信息,即:这个单词在某个文档中的出现次数,之所以要记录这个信息,是因为方便后续进行排序。

例如:
倒排列表为:{(3;1;<4>),(5;1;<4>)},其含义为:在文档3和文档5出现过这个单词,单词频率都为1,单词“拉斯”在两个文档中的出现位置都是4,即文档中第四个单词是“拉斯”。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黑妖问路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值