REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths
【背景】可解释推荐已经引起了业界和学术界的广泛关注。它在提高推荐说服力、信息量和用户满意度方面显示出巨大的潜力。尽管在过去几年中提出了许多有前途的可解释推荐模型,但这些模型的评估策略存在一些局限性。
【动机】解释的基本事实没有被真实用户标记,解释大多仅基于一个方面进行评估,评估策略难以统一。
【方法】构建一个可解释的推荐数据集。首先,开发了一个视频推荐平台,精心设计了一系列围绕推荐可解释性的问题。然后,我们招募了大约 3000 名不同背景的用户来使用该系统,并收集他们的行为和对我们问题的反馈。
现有的可解释推荐模型的不足
- 许多论文基于可视化评估解释,不能利用它来定量比较不同的模型。
- 许多人将用户评论视为解释基本事实,评论更多的是关于用户购买商品后的感受,这可能与促使他们做出购买决定的原因不同。
- 已有的通过收集用户反馈的做法是基于现有的公共数据集,但这些用户并不是数据集的真实用户
- 以往的工作大多只从一个方面评估解释,例如“解释是否能更好地说服用户”或“解释是否能揭示更多信息项目特征”,这可能无法综合评价模型的可解释性。
解决办法
首先,开发了一个视频推荐平台,并围绕推荐可解释性精心设计了一系列问题。例如,“哪些特征是您想观看此视频的原因?”以及“哪些功能对这段视频来说信息量最大?”。
然后,我们招募了大约 3000 名标注员来使用我们的平台并回答上述问题。这使得解释 ground truth 的标注者正是产生用户-项目交互的真实用户
开发的推荐平台
与传统的推荐系统相比,我们的平台是专门为收集用户可解释的行为而设计的。
在本节中,我们首先介绍平台上的项目以及标注者可以从中选择的解释候选。然后,我们描述了为收集解释基本事实而设计的问题。最后,我们展示了基于我们平台的每个贴标机的完整贴标流程。
- 项目:短视频
- 解释候选项:让标注者从诸多特征中选择,收集解释,如“哪些特征是您观看该视频的原因?”
1.项目标签,来自标题、评论等; 2. 预览图
例:
Q1。您想观看此视频的原因是哪些?
Q2。该视频的哪些特征最能提供信息?
Q3。您对哪些功能最满意?
Q4。请根据您的喜好给这个视频打分(从 1 到 5)
Q5。你如何评论这个视频?
基础数据
user: 2997
item: 4672
tag: 6115
模型
Data: 数据模块,加载数据,为评论等数据构建词汇表,再用Dataloader处理成所需格式
Model:包括(1)包含NLP的可解释模型,(2)包含基于特征的可解释模型
Trainer:包括BPR和BCE(二元交叉熵)
Evaluation:评分预测、top-k推荐、评论生成
模型地址
这是一个开源的模型库,可以调用一系列经典的可推荐模型
思路
对于这个数据集,作者提供了3种研究思路,这里简单介绍一种:
具有广泛角色信息的可解释推荐。在之前的大多数研究中,用于训练可解释推荐模型的数据集不包含足够的角色信息。通过我们的数据集,人们可以访问脱敏的用户配置文件,这可能有助于很多研究方向。
例如,可以研究解释公平性,敏感变量可以是年龄、教育程度、收入等。此外,人们还可以使用广泛的角色信息来增强解释的预测准确性