山东大学软件学院2020级信息检索

2020级信息检索(A)课程试卷

TestSc.2023.2.14

一、填空题(1分*30)

  1. 信息检索技术可以解决互联网上的 ————问题。

  2. 确定————————是IR的和核心问题。

  3. 搜索引擎的核心数据结构为————,由————和————组成。

  4. 布尔模型建立在————和————的基础上。

  5. 精确的Top K搜索的加速方法有(1)————; (2)————;(3)————。

  6. HITS算法中,每个网页计算两个值:————和 ————。

  7. SVD也就是————。

  8. 词袋模型Bag of words model,将其仅仅看作是————,文本中————。

    [记不清楚了(1)对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,(2)文本中每个词的出现都是独立的,不依赖于其他词是否出现,在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。]

  9. ————是对于词的序列的概率分布描述,是自然语言处理的基础。S在文本中出现的可能性P(S)=————。

  10. 二元独立模型BIM做出的两个假设————。

  11. PLSA的中文名是————,训练这个主题模型需要根据大量已知的————,训练出————和————。

  12. F1值综合————和————,将两者赋予同样的重要性来考虑。

  13. p@10的含义是指————。

  14. k-gram语言模型可以应用于————。

  15. HMM是指————,用来描述————的过程。

  16. HMM中的————问题可以应用于分词,其中HMM的中文分词是采用————算法实现的。

二、名词解释(8分*5)

  1. term spam(包含主要手段)
  2. PageRank算法(包含公式)
  3. BM25算法(包含公式)
  4. LSA(基本思想、实现方式、应用)
  5. NDCG(包含公式)

三、简答题(10分*3)

  1. 简述建立词项词典的过程并说明每个步骤的主要内容。
  2. 简述向量空间模型的概念和特点(包含TF/IDF)。
  3. 简述非精确top K 的主要方法和具体实现方式。

评价:参考2020年试题山东大学软件学院信息检索(考试)——期末考试回忆版_

本次考试以"背多分"为主,上述链接中的复习材料仍具有参考意义。本次也是2020年试题回忆的“传承”~~~

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值