![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
文章平均质量分 69
windoze
这个作者很懒,什么都没留下…
展开
-
实现自己的搜索引擎(二)
这一节我们来看看搜索引擎中最重要的几个数据结构。前面我们说过索引包含正向索引和反向索引两部分,首先我们看看正向索引的结构。正向索引用来存储文档的各种属性,从逻辑上讲,正向索引其实就是一个大数组,数组中每个元素就是一个文档的属性集合。如果正向索引是有Schema的,那么它其实就类似一个关系表或者说二维数组,纵轴是文档,横轴是属性;如果正向索引是Schema Free的,那原创 2012-08-03 22:50:05 · 858 阅读 · 0 评论 -
实现自己的搜索引擎(一)
搜索引擎的原理其实很简单,写出来没两页纸,但是实现中的各种细节写成的论文可以堆满两个图书馆。让我们先从原理说起。首先需要用输入数据创建索引,对于互联网搜索引擎,输入数据是一个个由爬虫从网上抓回来的网页,经过清洗之后进行内容抽取,然后整理成统一的格式交给索引程序创建索引。索引由以下几个基本的组成部分:1. 倒排索引,这一部分存放"关键字"->文档的映射,一般来说会把同原创 2012-08-03 22:49:30 · 968 阅读 · 0 评论