目录
0. 相关文章链接
1. 评测方法的分类
获取推荐系统评测指标的主要实验方法主要分为三种:1、离线实验。2、用户调查。3、在线实验。
2. 离线实验
离线实验室通过对离线数据集进行训练集和测试集的划分和测试,完成对评测指标的结果收集。
(1) 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;
(2) 将数据集按照一定的规则分成训练集和测试集;
(3) 在训练集上训练用户兴趣模型,在测试集上进行预测;
(4) 通过事先定义的离线指标评测算法在测试集上的预测结果。
离线实验的优缺点:
3. 用户调查
用户调查需要有一些真实用户,让他们在需要测试的推荐系统上完成一些任务。在他们完成任务时,我们需要观察和记录他们的行为,并让他们回答一些问题。最后,我们需要通过分析他们的行为和答案了解测试系统的性能。
它的优点是可以获得很多体现用户主观感受的指标,相对在线实验风险很低,出现错误后很容易弥补。缺点是招募测试用户代价较大,很难组织大规模的测试 用户,因此会使测试结果的统计意义不足。
4. 在线实验
将推荐系统上线进行测试,并和旧的算法系统进行AB测试,使用户流量随机分配到新旧两个系统中,然后统计用户的反馈数据进而进行系统的指标统计和比对。
用户进入网站后,流量分配系统决定用户是否需要被进行AB测试,如果需要的话,流量分配系统会给用户打上在测试中属于什么分组的标签。然后用 户浏览网页,而用户在浏览网页时的行为都会被通过日志系统发回后台的日志数据库。此时,如 果用户有测试分组的标签,那么该标签也会被发回后台数据库。在后台,实验人员的工作首先是 配置流量分配系统,决定满足什么条件的用户参加什么样的测试。其次,实验人员需要统计日志数据库中的数据,通过评测系统生成不同分组用户的实验报告,并比较和评测实验结果。
注:其他推荐系统相关文章链接由此进 -> 推荐系统文章汇总