2020级信息检索(A)课程试卷
一、填空题(1分*30)
-
信息检索技术可以解决互联网上的 ————问题。
-
确定————————是IR的和核心问题。
-
搜索引擎的核心数据结构为————,由————和————组成。
-
布尔模型建立在————和————的基础上。
-
精确的Top K搜索的加速方法有(1)————; (2)————;(3)————。
-
HITS算法中,每个网页计算两个值:————和 ————。
-
SVD也就是————。
-
词袋模型Bag of words model,将其仅仅看作是————,文本中————。
[记不清楚了(1)对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,(2)文本中每个词的出现都是独立的,不依赖于其他词是否出现,在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。]
-
————是对于词的序列的概率分布描述,是自然语言处理的基础。S在文本中出现的可能性P(S)=————。
-
二元独立模型BIM做出的两个假设————。
-
PLSA的中文名是————,训练这个主题模型需要根据大量已知的————,训练出————和————。
-
F1值综合————和————,将两者赋予同样的重要性来考虑。
-
p@10的含义是指————。
-
k-gram语言模型可以应用于————。
-
HMM是指————,用来描述————的过程。
-
HMM中的————问题可以应用于分词,其中HMM的中文分词是采用————算法实现的。
二、名词解释(8分*5)
- term spam(包含主要手段)
- PageRank算法(包含公式)
- BM25算法(包含公式)
- LSA(基本思想、实现方式、应用)
- NDCG(包含公式)
三、简答题(10分*3)
- 简述建立词项词典的过程并说明每个步骤的主要内容。
- 简述向量空间模型的概念和特点(包含TF/IDF)。
- 简述非精确top K 的主要方法和具体实现方式。
评价:参考2020年试题山东大学软件学院信息检索(考试)——期末考试回忆版_
本次考试以"背多分"为主,上述链接中的复习材料仍具有参考意义。本次也是2020年试题回忆的“传承”~~~