目录
0. 相关文章链接
1. 各推荐系统评测指标
2. 用户满意度(在线)
只能通过用户调查或者在线实验获得,比如网站的推荐结果反馈、用户的点击率、用户停留时间和转化率指标等来衡量用户的满意度。
3. 预测准确度(离线)
预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力。主要可以通过离线数据集进行分析。
评分预测:很多提供推荐服务的网站都有一个让用户给物品打分的功能。知道了用户对物品的历史评分,就可以从中习得用户的兴趣模型,并预测该用户在将来看到一个他没有评过分的物品时,会给这个物品评多少分。预测用户对物品评分的行为称为评分预测。
评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算。对于测试集中的一个用户 u和物品i,令是用户对物品i的实际评分,而是推荐算法给出的预测评分,那么RMSE的定义为:
MAE采用绝对值计算预测误差,它的定义为:
4. TopN推荐
网站在提供推荐服务时,一般是给用户一个个性化的推荐列表,这种推荐叫做TopN推荐。TopN推荐的预测准确率一般通过准确率(precision)/召回率(recall)度量。令R(u)是根据用户在训练集上的行为给用户作出的推荐列表,而T(u)是用户在测试集上的行 为列表。
那么,推荐结果的召回率定义为:
推荐结果的准确率定义为:
5. 覆盖率
覆盖率(coverage)描述一个推荐系统对物品长尾的发掘能力。覆盖率有不同的定义方法,最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。假设系统的用户集合为U,推荐系统给每个用户推荐一个长度为N的物品列表R(u)。那么推荐系统的覆盖率可以通过下面的公式计算:
在信息论和经济学中有两个著名的指标可以用来定义覆盖率。第一个是信息熵:
这里p(i)是物品i的流行度除以所有物品流行度之和。 第二个指标是基尼系数(Gini Index):
这里,ij是按照物品流行度p()从小到大排序的物品列表中第j个物品。
6. 多样性
用户的兴趣是广泛的,为了满足用户广泛的兴趣,推荐列表需要能够覆盖用户不同的兴 趣领域,即推荐结果需要具有多样性。 尽管用户的兴趣在较长的时间跨度中是一样的,但具体到用户访问推荐系统的某一刻, 其兴趣往往是单一的,那么如果推荐列表只能覆盖用户的一个兴趣点,而这个兴趣点不是用户这 个时刻的兴趣点,推荐列表就不会让用户满意。反之,如果推荐列表比较多样,覆盖了用户绝大 多数的兴趣点,那么就会增加用户找到感兴趣物品的概率。
多样性描述了推荐列表中物品两两之间的不相似性。因此,多样性和相似性是对应的。假设 s(i, j) [0,1] 定义了物品i 和j之间的相似度,那么用户u的推荐列表R(u)的多样性定义如下:
7. 新颖性
新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。在一个网站中实现新颖性的最简单办法是,把那些用户之前在网站中对其有过行为的物品从推荐列表中过滤掉。
8. 惊喜性
如果推荐结果和用户的历史兴趣不相似,但却让用户觉 得满意,那么就可以说推荐结果的惊喜度很高。
9. 信任性
如果用户信任推荐系 统,那就会增加用户和推荐系统的交互。特别是在电子商务推荐系统中,让用户对推荐结果产生信任是非常重要的。同样的推荐结果,以让用户信任的方式推荐给用户就更能让用户产生购买欲, 而以类似广告形式的方法推荐给用户就可能很难让用户产生购买的意愿。
10. 实时性
首先,推荐系统需要实时地更新推荐列表来满足用户新的 行为变化。 推荐系统需要能够将新加入系统的物品推荐给用户。
11. 健壮性
任何一个能带来利益的算法系统都会被人攻击,这方面最典型的例子就是搜索引擎。搜索引 擎的作弊和反作弊斗争异常激烈,这是因为如果能让自己的商品成为热门搜索词的第一个搜索结果,会带来极大的商业利益。推荐系统目前也遇到了同样的作弊问题,而健壮性(即robust,鲁棒 性)指标衡量了一个推荐系统抗击作弊的能力。
12. 获取各种评测指标的途径
注:其他推荐系统相关文章链接由此进 -> 推荐系统文章汇总