推荐系统三十六式学习笔记：工程篇.效果保证31|推荐系统的测试方法及常用指标介绍-CSDN博客

本文链接：https://blog.csdn.net/weixin_43597208/article/details/141166523

为什么要关注指标

面对推荐系统这样一个有诸多复杂因素联动起作用的系统，要时时刻刻知道它好不好，健不健康，你同样需要掌握一些测试方法及检测指标。

常用指标

推荐系统有很多指标，有很多率。实际上所有的指标就是在回答两个问题：系统有多好，还能有多好？

这两个问题恰恰就是推荐系统里面一个老大难问题的反映：探索利用问题。

系统有多好？这就是想问问：对数据利用得彻底吗？还能好多久？这个问题就是想问问：能探索出用户心得兴趣吗？这样就能继续开采利用了。也好比在职场中看一个人，除了看他现在的经验和解决问题的能力有多强，还要看他学习能力有多强，毕竟世界是变化的。

下面我分别说说这两类指标有哪些。

1.系统有多好？

检测系统到底有多好，其实，也有两类，一类是深度类，一类是广度类。

把数据看做是一座矿山，推荐系统是一个开采这座矿山的器械，系统有多好这个问题就是在关心开采的好不好，所以其实就看现在开采的深不深，开采的到不到位。广度指标就是指在矿上打满了钻井，而不仅仅盯着一处打井。深度类指标，就是看推荐系统在它的本职工作上做的如何。推荐系统的本职工作就是预测用户和物品之间的连接，预测的方法又有评分预测和行为预测。

因此深度类指标就旨在检测系统在这两个工作上是否做的到位，有针对离线模型的指标，也有在线的指标，下面我分别说一说；

1.评分准确度。通常就是均方根误差RMSE,或者其他误差类指标，反映预测评分效果的好坏。
2.排序。检测推荐系统排序能力非常重要，因为把用户偏爱的物品放在前面是推荐系统的天职。
由于推荐熊输出结果非常个人化，除了用户本人，其他都很难回答哪个好哪个不好，所以通常评价推荐系统排序效果很少采用搜索引擎排序质保，例如MAP,MRR,NDCG.搜索引擎评价搜索结果和查询相关性，具有很强的客观属性，可以他人代替评价，推荐系统评价排序通常采用AUC。
3.分类准确率，这个指标也是针对行为预测的，而行为预测就是分类问题，所以评价准确度就很自然。
在推荐系统中，评价准确度略微特殊，一般评价TopK准确率，与之对应的还有TopK召回率，这里的k和实际推荐系统场景相关，就是实际每次推荐系统需要输出几个结果。

TopK准确度计算方式如下：
如果日志中用户有A、B两个物品有正反馈行为，推荐系统退出一个物品列表，长度为k,这个列表中就与可能包含A、B两个物品中的一个或多个，下面这个表格就说明了TopK准确率和TopK召回率的含义。

在这里插入图片描述
这三个指标，比较直观地反映了推荐系统在预测这件事对数据开采的深度，实际上由于模型不同，还可以有不同的指标，也可以自己设计指标。但这三个指标也属于比较初期的指标，距离最终商业指标还有异地昂的距离。

通常检测推荐系统的商业指标有：点击率，转化率。其实把用户从打开你的应用或者网络开始，到最终完成一个消费，中间要经历数个步骤，也是大家常说的漏斗转化过程。

推荐系统如果在其中某个环节起作用，那么就要衡量那个环节的转化率，这个相比前面三个指标，更加接近真实效果。

除了比列类的商业指标，还要关注绝对量的商业指标，常见的有：社交关系数量，用户停留时长，GMV(成交额)，关注绝对数量，除了因为它才是真正商业目标，还有一个原因，是要看推荐系统是否和别的系统之间存在零和博弈情况。

假如推荐系统导流效果提升，搜索引擎导流下降，从整个平台来看，因为整个平台的商业目标并没有那么成绩喜人，也需要警惕。

讲完深度类指标，下面进入广度类指标。
4.覆盖率。这项指标就是看推荐系统在多少用户身上开采成功了，覆盖率有细分为UV覆盖率和PV覆盖率。UV覆盖率计算方法是：
$COV_{uv}=\frac{N_{l>c}}{N_{uv}}$

解释一下，首先要定义有效推荐，就是推荐结果长度保证在c个之上，独立访问的用户去重就是UV,有效推荐覆盖的独立去重用户数除以独立用户数就是UV覆盖率。PV覆盖率计算方法类似，唯一区别是计算时分子分母不去重。
$COV_{pv}=\frac{N_{l>c}^*}{N_{pv}^*}$

5.失效率。失效率指标衡量推荐不出结果的情况。也分为UV失效率和PV失效率。UV失效率计算方法是：
$LOST_{uv}=\frac{N_{l=0}}{N_{uv}}$

分子是推荐结果列表长度为0覆盖的独立用户数，分母依然是去重后的独立访问用户数。PV失效率也一样，区别是不去重

$LOST_{pv}=\frac{N_{l=0}^*}{N_{pv}^*}$

6.新颖性

对于用户来说，总是看见相同的内容会让他们审美疲劳，所以对用户来说，推荐的物品要有一定的新颖性。新颖性需要讲粒度，物品粒度。标签粒度，主题粒度，分类粒度等等。每个粒度上评价用户没见过的物品比例。对于物品级别的新颖性，更多是靠直接过滤保证。

7.更新率
检测结果更新程度。如果推荐列表每天几乎一样，显然不可取，尤其是新闻资讯类，要求每次刷新都不一样，对更新频率要求更高。更新频率可以有很多衡量方式，有一种衡量每个推荐周期和上个周期相比，推荐列表中不同物品的比例。这个周期，可以是每次刷新，也可以是每天。

$=\frac{△N_{diff}}{N_{last}}$

总结

推荐系统作为一种AI系统，其测试方法不完全相同于传统软件功能测试。对于推荐系统，也有一定的单元测试，扫描业务规则，对系统做一票否决制，因为这些业务规则定义明确。
除此之外，还要先经历离线模拟，再线上小范围实测，这部分测试就是在践行数据驱动。这部分指标主要在回答系统的两个问题。
1.系统表现有多好?
2.系统还能还多久？
只要系统现在表现好，并且系统生命力强，那么你的推荐系统就是好的推荐系统，这些指标就是在忠实反映这两个侧面的。

但是，光靠数据驱动，又容易走入歧途，还需要常常审视这些指标到底是否真实反映系统状态，所以还需要对用户做调查访谈，深入群众，听取最真实的感受，回来重新看看自己的指标是否合理，是否需要重新设计指标。