RS评估指标记录

buptwhq

已于 2022-02-20 00:53:39 修改

阅读量1.1k

点赞数 3

分类专栏： RS 文章标签：机器学习深度学习算法推荐算法

于 2022-02-11 00:01:55 首次发布

本文链接：https://blog.csdn.net/whq___/article/details/122871688

版权

RS 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

2022

一些论文与使用的指标

《Deep Collaborative Filtering with Multi-Aspect Information in Heterogeneous Networks》-石川et al.：HR@K, NDCG@K

《Modeling User Exposure in Recommendation》：Recall@K, MAP@K, NDCG@K

《Unbiased offline recommender evaluation for missing-not-at-random implicit feedback》：AUC, Recall@K, NDCG@K

《Recommendations as Treatments: Debiasing Learning and Evaluation》：MAE, MSE, CG, DCG, Precision@K

《Deep Session Interest Network for Click-Through Rate Prediction》：AUC

一.评分

1.RMSE(Root Mean Squard Error)、MAE(Mean Absolute Error)

二.推荐列表

1.准确率（Precision）和召回率（Recall）

对用户u推荐K个物品（记为R(u)），令用户u在测试集上喜欢的物品集合为T(u)，然后可以通过准确率/召回率评测推荐算法的精度：
$Precision@K=\frac{\displaystyle \sum^{}_{u} |R(u)\cap T(u)|}{\displaystyle \sum^{}_{u}|R(u)|}$

$Recall@K=\frac{\displaystyle \sum^{}_{u} |R(u)\cap T(u)|}{\displaystyle \sum^{}_{u}|T(u)|}$

$\frac{2Precision@K·Recall@K}{Precision@K+Recall@K}$

2.命中率HR(Hits Ratio)

与召回类似。意义：关心用户想要的，有没有推荐到，强调预测的“准确性”

《Deep Collaborative Filtering with Multi-Aspect Information in Heterogeneous Networks》-石川et al.

$$ HR = \frac{1}{N} \displaystyle \sum^{N}_{i=1} hits(i) $$ N:用户的总数量 hits(i):第i个用户访问的值是否在推荐列表中，是则为1，否则为0

三.排序

1.归一化折损累计增益(Normalized Discounted Cumulative Gain，NDCG)

NDCG:《Modeling User Exposure in Recommendation》

意义：关心找到的这些项目，是否放在用户更显眼的位置里，即强调“顺序性“
$\displaystyle \sum^{K}_{j=1} rel_j$

$DCG_u = \displaystyle \sum^{K}_{j=1} {\frac{2^{rel_j}-1}{\log_2(j+1)}}$

$NDCG_u = {\frac{DCG_u}{IDCG_u}}$

$\frac{1}{N}\displaystyle \sum^{N}_{u=1} NDCG_u$

隐式反馈topK：

简化版：《Deep Collaborative Filtering with Multi-Aspect Information in Heterogeneous Networks》-石川et al. 每个用户的测试集只放一个记录。
$\frac{1}{N}\displaystyle \sum^{N}_{i=1} {\frac{1}{\log_2(p_i+1)}}$
N:用户的总数量

$p_i$ :第 $i$ 个用户的真实访问值在推荐列表的位置，若推荐列表不存在该值，则 $p_i \to \infty$

2.平均倒数排名(Mean Reciprocal Rank, MRR)

指第一个正确答案在topK推荐列表里的排名的倒数
$\frac{1}{N} \displaystyle \sum^{N}_{i=1} \frac{1}{p_i}$

3.MAP(Mean Average Precision，平均准确率)

可理解为考虑了顺序的召回率。
首先需要计算每个用户AP（Average Precision):

MAP就是所有用户AP的平均值

4.AUC

点击率等场景
一种朴素算法：

还可用其他方法降低时间复杂度，例如先排序(按照得分升序排列)，再分析每个正例的位置与其得分大于负例数的数量关系。易得某个用户的AUC为：
在这里插入图片描述
其中n1为正样本的个数，n0为负样本的个数，rank(i)为第i个正样本的rank值
再计算所有用户的AUC值即可：

e.g K=5

R=[[2,5,1,3,9], [6,2,0,12,8], [1,6,7,11,2]]
T=[[3,10,7,21], [15,0,5,2,13], [19]]
$=\frac{1+2+0}{5+5+5}=\frac{3}{15}=0.2$

$Recall@5=\frac{1+2+0}{4+5+1}=\frac{3}{10}=0.3$

$F1@5=\frac{2*0.2*0.3}{0.2+0.3}=\frac{0.12}{0.5}=0.24$

R=[[2,5,1,3,9], [6,2,0,12,8], [1,6,7,11,2]]
T=[[3,10,7,21], [15,0,5,2,13], [19]]
$HR@5=\frac{1+1+0}{3}=\frac{2}{3}\approx0.667$

$\frac{\frac{1}{4} + \frac{1}{2} + 0}{3}= \frac{1}{4}=0.25$

$\frac{1}{3}* (\frac{\frac{1}{4}}{4} + \frac{\frac{1}{2}+\frac{2}{3}}{5} + \frac{0}{1} )\approx0.10$

$NDCG@5=\frac{1}{3}*(\frac{\frac{1}{log_2{(4+1)}}{}}{\frac{1}{log_2{(1+1)}}}+\frac{\frac{1}{log_2{(2+1)}}+\frac{1}{log_2{(3+1)}}}{\frac{1}{log_2{(1+1)}}+\frac{1}{log_2{(2+1)}}}+0)=\frac13*(\frac{log_22}{log_25}+\frac{log_23+2}{2*(1+log_23)}+0)\approx0.37470$

评分类的指标越小越好，推荐列表和排序类的指标范围在0~1，越接近于1则越好。

参考：
TopK推荐的评价指标，计算原理与样例

buptwhq

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
RS评估指标记录

2022一些论文与使用的指标一.评分1.RMSE(Root Mean Squard Error)、MAE(Mean Absolute Error)二.推荐列表准确率（Precision）和召回率（Recall）AUC命中率HR(Hits Ratio)三.排序归一化折损累计增益(Normalized Discounted Cumulative Gain，NDCG)平均倒数排名(Mean Reciprocal Rank, MRR)MAP(Mean Average Precision，平均准确率)e.g K=5
复制链接

扫一扫