内容包括推荐系统的离线实验类评价指标的概念介绍,计算公式与举例说明。
评分预测类
- 均方根误差( Root Mean Squared Error,RMSE)
RMSE是真实值与预测值偏差的平方和与样本数比值的平方根,主要是用来衡量真实值与预测值之间的偏差。
- 平均绝对误差(Mean Absolute Error,MAE)
MAE是绝对误差的平均值,用来衡量预测值与真实值之间的平均绝对误差
举例说明:
物品推荐类
针对二分类问题,通常将我们所关心的类别定为正类,另一类称为负类。混淆矩阵由如下数据构成:
True Positive (真正,TP):将正类预测为正类的数目
True Negative (真负,TN):将负类预测为负类的数目
False Positive(假正,FP):将负类预测为正类的数目(误报)
False Negative(假负,FN):将正类预测为负类的数目(漏报)
-
准确率(Accuracy)
准确率是最常见的评价指标,预测正确的样本数占所有的样本数的比例;通常来说,准确率越高分类器越好。
-
精确率(Precision)
精确率是在所有预测为正的结果中,预测正确的结果占的比例
-
召回率(Recall)
召回率是相对于样本而言的,在所有实际为正的结果中,预测正确的结果占的比例。
-
F值(F-Measure)
F值同时兼顾了查准率与召回率,取二者的平衡来衡量模型的水平。
举例说明:
-
Hit Ratio(HR)
在top-K推荐中,HR是一种常用的衡量召回率的指标。
举例说明:
-
Average Precision(AP)
以Recall值为横轴,Precision值为纵轴,我们就可以得到PR曲线。平均精准度AP简单来说就是对PR曲线上的Precision值求均值。对于PR曲线来说,我们使用积分来进行计算:
-
Mean Average Precision(MAP)
表示各类AP的平均值
举例说明:
-
Area Under the ROC Curve (AUC)
AUC即ROC曲线下的面积,但现在一般不用面积计算AUC。AUC表示任意给一个正类样本和一个负类样本,正类样本的score有多大的概率大于负类样本。AUC反映了模型对样本的排序能力。
举例说明:
-
平均倒数排名(Mean Reciprocal Rank,MRR)
MRR关心找到的这些项目,是否放在用户更显眼的位置,即强调“顺序性”。
Normalized Discounted Cumulative Gain (NDCG)