搜索引擎的索引

在搜索引擎中,每个文档都有一个id,文档的内容是所有关键词的集合。搜索引擎能够实现快速查找的核心就是利用索引。即用户输入关键字查找匹配索引,之后通过索引构建结果。

正排索引

以文档id为关键字,记录文档中每个关键字的位置信息,查询时需要遍历每一个文档。每个文档对应一个文档id。

根据文档内容构建出“文档id→关键词列表”的关系。

这种文档id的方式适合关系数据库通过id查询数据详情。

在搜索引擎中更,这种索引肯定不行,这样方式会消耗搜索引擎大量资源。所以,在搜索引擎中采取倒排索引的方式构建索引库,即把“文档id→关键词列表”转换为“关键词列表→文档id”,每个关键字对应着一个文档id列表。

倒排索引

依据关键字查找文档,用关键字作为索引key,每个关键字的索引是一个列表,这个列表的元素就是“关键词→文档id列表”的关系。

本质是,先将记录中的某些列进行分词,然后形成分词与文档id的映射关系。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值