搜索词汇对照

最新推荐文章于 2024-10-11 14:13:47 发布

wy_716

最新推荐文章于 2024-10-11 14:13:47 发布

阅读量113

点赞数

分类专栏：计算机英语文章标签： lucene 全文检索算法

本文链接：https://blog.csdn.net/wy_716/article/details/83561979

版权

1 篇文章 0 订阅

订阅专栏

中文	英文	中文解释
文档	Document
	Document Frequency, df	有多少文档包含次Term。df 越大说明越不重要
全文检索	Full-text Search
索引创建	Indexing
	lemmatization	将单词转变为词根形式
语言处理组件	Linguistic Processor
小写	Lowercase
倒排表	Posting List
相关性	relevance
打分	scoring
搜索索引	Search
顺序扫描法	Serial Scanning
	stemming	将单词缩减为词根形式
停词	Stop word	一种语言中最普通的一些单词，由于没有特别的意义，因而大多数情况下不能成为搜索的关键词，因而创建索引时，这种词会被去掉而减少索引的大小
词	Term
	Term Frequency, tf	此Term在此文档中出现了多少次。tf 越大说明越重要
词的权重	Term weight	表示此词在此文档中的重要程度，越重要的词有越大的权重
词元	Token
	Tokenize	1. 将文档分成一个一个单独的单词。 2. 去除标点符号。 3. 去除停词
分词组件,分词	Tokenizer
向量空间模型的算法	Vector Space Model