在计算机科学领域,倒排索引(也称为倒排文件)是一种存储了来自文本中的映射的索引数据结构。比如单词或者数字,对应到它们在数据库、一个文件或者一组文件中的位置。它是在文档检索系统中使用的最流行的数据结构,在搜索引擎中有大规模使用案例。
先认识 “单词—文档” 矩阵
单词—文档基本模型:
以上表示:
词1在文档1和文档4中出现,文档1包含词1和词4。
词2在文档2和文档5中出现,文档2包含词2。
…不一一啰嗦
搜索引擎的索引其实就是实现 “ 单词—文档 ”矩阵的具体数据结构。
各项实验数据表明,倒排索引是单词到文档映射关系的最佳实现方式。
倒排索引相关的基本术语
文档(Document):一般搜索引擎处理的对象是互联网网页,对于搜索引擎来讲,Word、PDF、html、XML等不同格式的文件都可以称为文档,一般以文档来表示文本信息。
文档集合(Document Collection):由若干文档构成的集合成为文档集合。比如海量的互联网网页等。
文档编号(Document ID):在搜索引擎内部,会为文档集合每个文