概率模型
1.原理假设
- 存在一个理想的answer set(R)(系统检索到的文件集) —— 一组包含所有相关文档和没有无关文档的文档集。
- 因为我们不知道理想答案集的属性是什么,所以我们尝试通过初始猜测向用户返回一组合理的初始文档。
- 查询过程:试图指定R的实际属性的过程。(R的性质-集合的数学特征,用指标项来描述)
- 特性:用户交互——给用户一个文档集,用户将反馈哪些文档是相关的。然后系统将使用反馈来细化结果。
这是一个重复的过程,理想情况下,用户验证的相关文档集最终等于R。
- 概率模型的过程
- 用户有信息需求。
- 用户向IR系统发送一个查询
- 系统返回一组初始结果
- 用户告诉系统哪些结果是相关的
- 系统使用这些信息来改善结果的准确度
这个过程可能会重复很多次,直到用户对结果满意为止。
2. 自动概率检索
•假设:为了避免用户的重复反馈,我们做了进一步的假设——每次运行后,我们假设顶部的r文档是相关的。
•自动计算: 然后根据这些文档重新计算概率并再次运行检索。
3. 优点和缺点
优点:
•对文档进行排序。
•用户反馈可以提高检索性能。
缺点:
•我们需要猜测初始概率。
•使用二进制权重(该文档包含该term则权重为1,否则为0),因此术语频率被忽略。
•假设术语是独立的,这在实践中是一个缺点。
4 BM25 模型
使用了TF-IDF权重