排序学习论文阅读：EigenRank_eigen mat.rank()-CSDN博客

本文链接：https://blog.csdn.net/yanhe156/article/details/88662001

本文深入探讨了EigenRank，一种基于排序的协同过滤方法。它不依赖于评分预测，而是通过衡量用户对物品排序的相似度来推荐物品。论文介绍了Kendall Rank Correlation Coefficient作为相似度指标，以及两种排序方法：贪心算法和随机游走模型。这些方法旨在优化排序，而非传统的评分预测，以提高推荐系统的准确性。

摘要由CSDN通过智能技术生成

论文 EigenRank: A Ranking-Oriented Approach to Collaborative Filtering (SIGIR 2008)

首先上总结：
这篇文章提出了一个衡量 两个用户偏好相似度(item顺序) 的指标，然后提出了两种基于近邻的排序方法。

贪心算法(greedy)
使用一个用户的偏好定义的随机游走模型( random walk model )

我理解的协同过滤也就是分为两步，首先是聚类，然后是根据聚类结果（打分）做排序。

Abstract

传统协同过滤算法预测潜在的分值(rating)。
这篇文章提出了一种协同过滤方法结局用户偏好引发的物品排序问题：
1）通过用户间的物品排序(item ranking)来衡量相似性，而不是用rating value;
2）提出一种新的协同过滤算法(CF)来基于相似用户的偏好排序。

评价标准: NDCG (Normalized Discounted cumulative gain)

1 Introduction

现有的推荐技术可以分为两类(2008年，不知道现在咋样)：

基于内容的过滤(content-based filtering)
协同过滤(CF, Collaborative Filtering)

基于内容的过滤需要收集物品和用户描述，比如物品简介，用户简介，然后用一些特征表示物品和用户，然后用二者的表示做匹配做匹配。
协同过滤通过收集大量用户对物品的打分(rating), 来对其他用户做推荐。不收集物品描述。
直观的想法就是一个用户通常会对那些有相同兴趣的用户感兴趣的商品感兴趣。
(举例：比如我和一个同学都对精灵宝可梦感兴趣，同时他还对名侦探柯南感兴趣，那么推荐系统就会给我推荐名侦探柯南)

CF有以下两个优点：

避免了收集繁杂的物品和用户信息
CF不需要领域知识，易于应用到不同的推荐系统。

CF又可以分成两类:

每次给用户推荐一个单独的物品
每次给用户推荐N个物品，这时会通过这N个物品中每个物品的位置(顺序)来评价系统表现。

这篇论文是针对推荐多个物品(item)的问题。
对这种推荐多个物品的系统，大部分CF算法都会采用评分导向(rating-oriented) 的方法，首先预测每个物品的rating，然后根据rating排序。
这样做的问题是，高accuracy的模型不一定会有更好的排序效果。
举例: 真实label {3, 4} ，模型1预测结果是{2,5} ，模型2预测结果是{4, 3}，模型1的绝对离差(absolute deviation)是 |3-2|+|4-5| = 2，模型2的绝对离差是 |3-4|+|4-3| = 2，两个模型的绝对离差相同，但是模型2的排序结果是错误的！

而且，大部分现有(2008年)的方法，没有考虑到用户关于项目对(pairs of item)的偏好，只是独立的预测项目(item)个体的rating。

这篇文章里提出了一直新的 ranking-oriented 的协同过滤方法，直接解决排序问题，而不是先预测rating。
这篇文章的主要贡献是首先提出了一种衡量排序相似度的标准，当两个用户的排序相似度高时，就可以为一个用户推荐另一个用户的偏好项目了。
然后，提出了两种基于一组类似用户的偏好来产生项目排名的方法:

贪心算法(greedy)
使用一个用户的偏好定义的随机游走模型( random walk model )

每种方法都是为了有效的组合从一组用户中得到的部分的不完整的项目排序，来得到更符合已知用户偏好的排序。所以叫eigenRank (eigen体现在哪？没看懂) 。

2 Related works

常见的协同过滤方法有两种:

一是基于近邻方法 (Neighborhood-based Approaches)
二是基于模型的方法 (Model-based Approaches)

2.1 基于近邻的方法

有两种常见的方法：一是user-based，二是 item-based。

2.1.1 user-based model (我自己加的小标题)

最常见的方法是 user-based model，通过相似的一组用户的评分，来评估一个目标用户(target user)对未知项目的评分。这种方法的关键是用于选择一组用户的，用户间(user-user)的相似度。
常用的相似度包括皮尔森相关系数(PCC, Pearson Correlation Coefficient)，和向量相似度(VS, vector similarity)。

这种方法的缺点在于不同用户打分会有偏差 (bias)。
比如满分10分，李华平常都打1分，但有天李华打了3分，对李华来说，以及是很高的评价了，但是张三平常都打5分，有天可能打了3分，张三给的是很低的评价。如果只看3分的这个项目，那么李华和张三可能会被判定为相似。
论文里提到了参考文献里的一些方法，比如通过均值修正等。

另一个难点是数据相当稀疏，难以找到相似性。解决方法是降维( dimensionality reduction)和数据平滑(data-smoothing method)。