关于Rocchio算法和向量空间模型反馈

什么是相关反馈以及向量空间检索模型在此不叙。

Rocchio公式是这样的,省掉不相关部分,因为相关部分更重要。


  1. 有研究表明,在用户只反馈一两篇相关文档的情况下,如果用户同时标明文档中的哪些段落是相关的,并允许检索系统将相关段落而不是整个相关文档的向量表示加入到原始查询中,那么相关反馈的效果会明显提高,为什么呢?

请先看下图



标明哪些段落是相关的,也就相当于增加了相关的索引词,通过公式计算出的新的查询向量的值也就更加合理,关于相关索引词的相似度也就更大,故检索效果会显著提高。

2.同一研究表明,一旦用户返回了足够的反馈结果(比如10-20篇相关文档),同时并没有标明文档中哪些段落是相关的,如果使用整个相关文档的向量加入到原始查询中,系统同样可以得到很好的效果,解释其中的原因。


不标明段落相关,但是把整个相关文档向量加入到原始查询中,根据公式仍然可以知道,这将大大提高新的查询向量关于相关文档的相似度,从而提高检索效果。


参考文献

http://www.docin.com/p-116849541.html



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Simple-Soft

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值