信息检索笔记 — 概率模型 & BM25

概率模型

1.原理假设

  • 存在一个理想的answer set(R)(系统检索到的文件集) —— 一组包含所有相关文档和没有无关文档的文档集。
  • 因为我们不知道理想答案集的属性是什么,所以我们尝试通过初始猜测向用户返回一组合理的初始文档。
  • 查询过程:试图指定R的实际属性的过程。(R的性质-集合的数学特征,用指标项来描述)
  • 特性:用户交互——给用户一个文档集,用户将反馈哪些文档是相关的。然后系统将使用反馈来细化结果。

这是一个重复的过程,理想情况下,用户验证的相关文档集最终等于R。

  • 概率模型的过程
  1. 用户有信息需求。
  2. 用户向IR系统发送一个查询
  3. 系统返回一组初始结果
  4. 用户告诉系统哪些结果是相关的
  5. 系统使用这些信息来改善结果的准确度

这个过程可能会重复很多次,直到用户对结果满意为止。

 

2. 自动概率检索

•假设:为了避免用户的重复反馈,我们做了进一步的假设——每次运行后,我们假设顶部的r文档是相关的。

•自动计算: 然后根据这些文档重新计算概率并再次运行检索。

 

3. 优点和缺点

优点:

•对文档进行排序。

•用户反馈可以提高检索性能。

缺点:

•我们需要猜测初始概率。

•使用二进制权重(该文档包含该term则权重为1,否则为0),因此术语频率被忽略。

•假设术语是独立的,这在实践中是一个缺点。

 

4 BM25 模型

使用了TF-IDF权重

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值