- Lucene
中文 | 英文 | 中文解释 | |
文档 | Document | ||
Document Frequency, df | 有多少文档包含次Term。df 越大说明越不重要 | ||
全文检索 | Full-text Search | ||
索引创建 | Indexing | ||
lemmatization | 将单词转变为词根形式 | ||
语言处理组件 | Linguistic Processor | ||
小写 | Lowercase | ||
倒排表 | Posting List | ||
相关性 | relevance | ||
打分 | scoring | ||
搜索索引 | Search | ||
顺序扫描法 | Serial Scanning | ||
stemming | 将单词缩减为词根形式 | ||
停词 | Stop word | 一种语言中最普通的一些单词,由于没有特别的意义,因而大多数情况下不能成为搜索的关键词,因而创建索引时,这种词会被去掉而减少索引的大小 | |
词 | Term | ||
Term Frequency, tf | 此Term在此文档中出现了多少次。tf 越大说明越重要 | ||
词的权重 | Term weight | 表示此词在此文档中的重要程度,越重要的词有越大的权重 | |
词元 | Token | ||
Tokenize | 1. 将文档分成一个一个单独的单词。 2. 去除标点符号。 3. 去除停词 | ||
分词组件,分词 | Tokenizer | ||
向量空间模型的算法 | Vector Space Model | ||