推荐系统评价指标综述笔记

最新推荐文章于 2024-03-20 21:04:45 发布

八宝袋

最新推荐文章于 2024-03-20 21:04:45 发布

阅读量1.5k

点赞数

分类专栏：笔记推荐系统文章标签：推荐系统

本文链接：https://blog.csdn.net/weixin_44569973/article/details/120424713

版权

笔记同时被 2 个专栏收录

14 篇文章

订阅专栏

推荐系统

13 篇文章

订阅专栏

How good your recommender system is? 阅读笔记

介绍推荐系统的评价指标

从历史上看，评估可以在在线和离线的实验中进行。在线实验包括发布推荐后询问用户评价，在线实验可以从用户那里得到精确的结果，但是花费比较多(costly). 所以研究者们比较倾向于离线实验，可以理解为划分训练集与测试集的方法，不需要真实用户。

因此，基于精确度的指标被广泛使用，但是这些指标忽略了用户对新颖性和多样性的追求，所以，考虑这些因素，自然诞生了许多其他指标。

本文详细解释以下六种指标：utility、novelty、diversity、unexpected、serendipity、coverage.

1.Utility

推荐系统手册：utility 代表用户在得到的推荐中接受的程度的指标

Utility可以被视作一种相关性、有用性，所以这个指标可以用错误率相关来表示.

1.1 Error metrics

$util(R_u)=MAE=\frac{\sum_{i\in R_u}p(i)-r(i)}{|R_u|}$

其实就是L1范数，这个叫平均绝对误差，预测值和真实值之差的绝对值的平均值。

$util(R_u)=RMSE=\sqrt\frac{\sum_{i\in R_u}(p(i)-r(i))^2}{|R_u|}$

这个叫均方根误差，预测值和真实值之差的平方的平均值。

这两个指标都用来描述预测值和真实值之间的误差情况，RMSE更注重离散程度。

1.2 Precision and Recall

$util(R_u)=precision=\frac{|C_u\cap R_u|}{|R_u|}$

$util(R_u)=recall=\frac{|C_u\cap R_u|}{|C_u|}$

其中， $R_u$ 是推荐列表， $C_u$ 是用户的购买列表.

举个例子：

$R_u=\{1,3,5,7,9,11,13,15,17,19\}$ 推荐列表

$C_u=\{1,3,4,5,6,10\}$ 购买列表

$R_u\cap C_u=\{1,3,5\}$ 推荐且购买

$precision=\frac3{10}=30\%$

$recall=\frac36=50\%$

此外，还有一个在工业中运用比较广泛的指标：点击率(CTR).

$util(R_u)=CTR=\frac{|C_u|}{|R_u|}$

在上面的例子中， $CTR=\frac6{10}=60\%$ .

就是说有60%的推荐被选择了.

在机器学习中，一般用“混淆矩阵”来计算precision和recall，我试了试，结果是一样的.

	YES	NO
YES	TP （18）	FN （4）
NO	FP （3）	TN （5）

假设如上，即 $R_u=\{1-18,{Extra}_1(3)\}$ , $C_u=\{1-18,Extra_2(4)\}$ , $R_u\cap C_u=\{1-18\}$ .

$|R_u|=21,|C_u|=22,|R_u\cap C_u|=18$

所以

$precision=\frac{TP}{TP+FP}=\frac{18}{21}=\frac{|R_u\cap C_u|}{|R_u|}$

$recall=\frac{TP}{TP+TN}=\frac{18}{22}=\frac{|R_u\cap C_u|}{|C_u|}$

可以看出和上面的算法是一样的。

1.3 Ranking score

用户很难浏览所有项目，所以根据评分，排名靠前的就更有推荐的价值。

$util(R_u)=rank(R_u)=\sum_{j=1}^{|R_u|}\frac{max(r(i,j)-d,0)}{2^{\frac{j-1}{a-1}}}$

$a$ :半衰期衰减值, $r (i, j)$ : 这里综述有点问题，先不管了

2.Novelty

待续^_^