检索结果聚类、排名

最新推荐文章于 2021-09-16 21:41:48 发布

woniu317

最新推荐文章于 2021-09-16 21:41:48 发布

阅读量1.9k

点赞数

分类专栏：听论文报告总结文章标签：检索结果聚类

本文链接：https://blog.csdn.net/woniu317/article/details/17100665

版权

听论文报告总结专栏收录该内容

16 篇文章 0 订阅

订阅专栏

1. 问题定义

例如我们在Google scholar上搜索databasehistogram的结果如图1-1所示。注意到搜索结果又22万条，而Google只提供了按相关性排序和按日期排序两种方式。若两条检索结果除了包含查询关键字外还包含至少一个其它关键字，则将他们聚为一类。依据包含相同关键字的属性值得分对聚集类进行排序，而他们的得分是根据为他们属性值之和。属性之包括被引用次数、作者的PageRank得分、出版社的档次等。

例如，有k1，k2，k3三个关键字，查询关键字为k1。易得所有包含关键字k2的结果总得分、所有包含k3的结果总得分以及所有既包含k2有包含k3的结果总得分。按照他们的总得分进行排序。

图1-1 database histogram搜索结果

进一步分析，不难得出求出所有结果的总得分显得有失公平性，因此作者从包含其它相应关键字的结果中抽取得分最高的N项代替所有结果求得总得分，从而达到排序的目的。

2. 作者的方法

自己的猜测：显然我们可以根据倒排表迅速完成对搜索结果的聚类，但需要注意的是如果出了查询关键字外还有n个关键字，则将有2ⁿ中组合方案，如果一一枚举将是NPC问题。因此作者将搜索结果分别按各个属性降序排列，每个属性值轮流取值以方便得到上下界。最终求得包含哪个或者哪几个关键字的搜索结果属性之得分高，则将他们排在前边，直到我们求出k个，计算结束。

详细过程见论文：Adding Structure to Top-K: From Items to Expansions。

3．个人理解

语义方面：虽然能计算出包含哪些非关键字的结果总得分较高，但将所有包含该关键字的所有搜索结果排在前边显然是不合理的。例如，有k1，k2，k3三个关键字，k1为查询关键字，我们计算top-1。假设包含k2的结果得分高于k3的，且包含k2的所有结果共有m项。显然很容易得出包含关键字k3的搜索结果中存在比包含关键字k2的搜索结果的得分高的项，因此将所有包含关键字k2的排在包含关键字k3的前边有失公平性。

求解方面：作者将搜索结果的各项属性值分开排序，而根据以前听的关于反向top-k的文章（finding k mostfavorite products based on reverse top-t queries）中提到，可以将每项搜索结果的各个属性值当成一项，按照每项中属性值最大的那项进行排序，找出主导项，从而可以求出top-k。可行性有待进一步分析。