(1) | Java是世界上最好的编程语言 |
(2) | 学好Java 走遍世界都不怕 |
(3) | 一入Java深似海 |
对于上面的三行记录,分别建立正排索引与倒排索引。
- 正排索引
将一行记录叫做ducument,记录中的词语叫word。即ducument是由多个word组成。
正排索引是通过ducument查找到word,也就是可以查找某一行的ducument存在哪些word。
若将索引结构使用Map来表示,则Map中的key就是每一行ducument,使用编号代替。Map中的value则是对应的ducument中的word。
key | value |
(1) Java是世界上最好的编程语言 | Java |
是 | |
世界上 | |
最好的 | |
编程 | |
语言 |
key | value |
(2) 学好Java 走遍世界都不怕 | 学好 |
Java | |
走遍 | |
世界 | |
都 | |
不怕 |
- 倒排索引
与正排索引相反,倒排索引是根据word,找到含有该word的ducument。继续用Map来表示索引结构,则key是word,value记录该word在第几个ducument中第几个位置出现。
key | value |
Java | (1)1 (表示Java在编号(1)的 document在第1个位置) |
(2)2 | |
(3)3 |
key | value |
世界 | (1)3 |
(2)4 |