搜索引擎核心技术与算法
从工程和理论角度一同学习搜索之美
QvQ是惊喜不是哭泣
不羁而自律
展开
-
搜索引擎核心技术与算法 —— 词项词典与倒排索引优化
作者:夕小瑶卖萌屋 —— QvQ首先回顾一下构建倒排索引的几个主要步骤:(1)收集待建索引的文档;(2)对这些文档中的文本进行词条化;(3)对第2步产生的词条进行语言学预处理,得到词项;(4)根据词项对所有文档建立索引。可以看到,上诉过程中非常重要的一步就是获得词项,那么词项是什么,又是怎么获得的呢?1. 词项集合的确定在确定词项前,我们需要明确三个概念:...原创 2020-02-09 13:53:36 · 1291 阅读 · 0 评论 -
搜索引擎核心技术与算法 —— 倒排索引
作者:夕小瑶卖萌屋 —— QvQ这里首先区分两个概念:搜索和检索检索:数据库时代的概念,及将数据存入数据库,有需要的时候进行查取。对结果的要求绝对精确;比如我要在图书馆里找到所有出现“白马”字样的图书,这里用到的就是检索。搜索:互联网时代的概念,人们将信息资源放在网上,第三方将互联网的信息搜罗起来,建立索引,所以搜索更多是指基于问题相关性的信息收集方式。当我想知道“如何骑白马最...原创 2020-02-09 12:09:42 · 1465 阅读 · 0 评论