山东大学软件学院2020级信息检索

最新推荐文章于 2024-07-08 08:01:33 发布

时光与你c

最新推荐文章于 2024-07-08 08:01:33 发布

阅读量315

点赞数

分类专栏：软件学院期末考试文章标签：搜索引擎自然语言处理

本文链接：https://blog.csdn.net/xx2215058009/article/details/130486948

版权

软件学院期末考试专栏收录该内容

10 篇文章 14 订阅

订阅专栏

2020级信息检索(A)课程试卷

TestSc.2023.2.14

一、填空题（1分*30）

信息检索技术可以解决互联网上的 ————问题。
确定————————是IR的和核心问题。
搜索引擎的核心数据结构为————，由————和————组成。
布尔模型建立在————和————的基础上。
精确的Top K搜索的加速方法有（1）————；（2）————；（3）————。
HITS算法中，每个网页计算两个值：————和 ————。
SVD也就是————。
词袋模型Bag of words model，将其仅仅看作是————，文本中————。

[记不清楚了（1）对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合，（2）文本中每个词的出现都是独立的，不依赖于其他词是否出现，在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。]
————是对于词的序列的概率分布描述，是自然语言处理的基础。S在文本中出现的可能性P(S)=————。
二元独立模型BIM做出的两个假设————。
PLSA的中文名是————，训练这个主题模型需要根据大量已知的————，训练出————和————。
F1值综合————和————，将两者赋予同样的重要性来考虑。
p@10的含义是指————。
k-gram语言模型可以应用于————。
HMM是指————，用来描述————的过程。
HMM中的————问题可以应用于分词，其中HMM的中文分词是采用————算法实现的。