一、索引构建影响因素
索引构建是指一篇文档转换成倒排索引的整个过程;
(1)需要考虑的因素有内存大小、CPU时钟频率等;比如如果内存特别大,则能够把全部的文档都放入内存,并很快就能构建成倒排索引;
(2)我们需要把尽可能多的内容放在内存;
(3)需要考虑寻道时间,因此必须要把连续读取的数据放在连续的块中;
将文档集变成term-->docID后,词项-文档ID对的数目是token的数目;
二、BSBI
我们这里考虑的是大文档集(不能把全部的文档都放入内
索引构建是指一篇文档转换成倒排索引的整个过程;
(1)需要考虑的因素有内存大小、CPU时钟频率等;比如如果内存特别大,则能够把全部的文档都放入内存,并很快就能构建成倒排索引;
(2)我们需要把尽可能多的内容放在内存;
(3)需要考虑寻道时间,因此必须要把连续读取的数据放在连续的块中;
将文档集变成term-->docID后,词项-文档ID对的数目是token的数目;
我们这里考虑的是大文档集(不能把全部的文档都放入内