推荐系统（10）：推荐系统评测之评测指标

最新推荐文章于 2024-08-13 17:49:52 发布

电光闪烁

最新推荐文章于 2024-08-13 17:49:52 发布

阅读量1.6k

点赞数

分类专栏： # 推荐系统文章标签：推荐算法机器学习推荐系统

本文链接：https://blog.csdn.net/yang_shibiao/article/details/124807927

版权

推荐系统专栏收录该内容

14 篇文章

订阅专栏

0. 相关文章链接

推荐系统文章汇总

1. 各推荐系统评测指标

2. 用户满意度（在线）

只能通过用户调查或者在线实验获得，比如网站的推荐结果反馈、用户的点击率、用户停留时间和转化率指标等来衡量用户的满意度。

3. 预测准确度（离线）

预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力。主要可以通过离线数据集进行分析。

评分预测：很多提供推荐服务的网站都有一个让用户给物品打分的功能。知道了用户对物品的历史评分，就可以从中习得用户的兴趣模型，并预测该用户在将来看到一个他没有评过分的物品时，会给这个物品评多少分。预测用户对物品评分的行为称为评分预测。

评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算。对于测试集中的一个用户 u和物品i，令 $r_{ui}$ 是用户对物品i的实际评分，而是 $\hat{r_{ui}}$ 推荐算法给出的预测评分，那么RMSE的定义为：

MAE采用绝对值计算预测误差，它的定义为:

4. TopN推荐

网站在提供推荐服务时，一般是给用户一个个性化的推荐列表，这种推荐叫做TopN推荐。TopN推荐的预测准确率一般通过准确率(precision)/召回率(recall)度量。令R(u)是根据用户在训练集上的行为给用户作出的推荐列表，而T(u)是用户在测试集上的行为列表。

那么，推荐结果的召回率定义为：

推荐结果的准确率定义为：

5. 覆盖率

覆盖率(coverage)描述一个推荐系统对物品长尾的发掘能力。覆盖率有不同的定义方法，最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。假设系统的用户集合为U，推荐系统给每个用户推荐一个长度为N的物品列表R(u)。那么推荐系统的覆盖率可以通过下面的公式计算：

在信息论和经济学中有两个著名的指标可以用来定义覆盖率。第一个是信息熵:

这里p(i)是物品i的流行度除以所有物品流行度之和。第二个指标是基尼系数(Gini Index)：

这里，ij是按照物品流行度p()从小到大排序的物品列表中第j个物品。

6. 多样性

用户的兴趣是广泛的，为了满足用户广泛的兴趣，推荐列表需要能够覆盖用户不同的兴趣领域，即推荐结果需要具有多样性。尽管用户的兴趣在较长的时间跨度中是一样的，但具体到用户访问推荐系统的某一刻，其兴趣往往是单一的，那么如果推荐列表只能覆盖用户的一个兴趣点，而这个兴趣点不是用户这个时刻的兴趣点，推荐列表就不会让用户满意。反之，如果推荐列表比较多样，覆盖了用户绝大多数的兴趣点，那么就会增加用户找到感兴趣物品的概率。

多样性描述了推荐列表中物品两两之间的不相似性。因此，多样性和相似性是对应的。假设 s(i, j) [0,1] 定义了物品i 和j之间的相似度，那么用户u的推荐列表R(u)的多样性定义如下: