**
用于推荐的隐式反馈去噪
**
摘要
隐性反馈的普遍存在使得它们成为构建在线推荐系统的默认选择。虽然大量的隐式反馈缓解了数据稀疏问题,但缺点是它们在反映用户的实际满意度方面不够干净。例如,在电子商务中,很大一部分点击并不转化为购买,许多购买最终会得到负面评价。因此,考虑隐含反馈中不可避免的噪声对于推荐器的训练至关重要。然而,关于推荐的工作很少考虑到隐含反馈的嘈杂性质。
在这项工作中,我们探索的中心主题去噪隐含反馈推荐训练。我们发现噪声隐含反馈有严重的负面影响,即拟合噪声数据会阻碍推荐者学习实际的用户偏好。我们的目标是识别和修剪有噪声的交互,从而提高推荐器训练的效率。通过观察正常的推荐器训练过程,我们发现噪声反馈在早期通常具有较大的损失值。受此启发,我们提出了一种新的训练策略——自适应去噪训练,该策略在训练过程中自适应地修剪噪声交互。具体来说,我们为自适应损失公式设计了两个范例:截断损失,在每次迭代中丢弃具有动态阈值的大损失样本;和自适应降低大损失样本权重的重加权损失。我们在广泛使用的二元交叉熵损失上实例化了两个范例,并在三个有代表性的推荐者上测试了所提出的自动数据挖掘策略。在三个基准上的大量实验表明,ADT显著提高了推荐质量。
CCS概念
信息系统→推荐系统 ● 计算方法→从隐性反馈中学习
Keywords
推荐系统,非正向反馈,自适应去噪训练
1 INTRODUCTION介绍
推荐系统是一个很有前途的解决方案,可以挖掘用户对各种在线服务的偏好,如电子商务[29],新闻门户[32]和社交媒体[3]。作为用户选择的线索,隐式反馈(例如点击和购买)通常是训练推荐者的默认选择,因为它们的量很大。然而,先前的工作[18,32,39]指出了隐含反馈和实际用户满意度之间的差距,这是由于用户不喜欢交互项目的嘈杂交互(也称为假阳性交互)的普遍存在。例如,在电子商务中,很大一部分购买最终都得到了负面评价或被退回。这是因为隐式交互很容易受到用户第一印象和其他因素的影响,如字幕偏差[4,17,33]和位置偏差[19]。此外,现有的研究[33,39]已经证明了这种假阳性交互对在线服务的用户体验的有害影响。然而,关于推荐的工作很少考虑到隐含反馈的嘈杂性质。
在这项工作中,我们认为这种假阳性交互会阻碍推荐者了解实际的用户偏好,导致低质量的推荐。表1提供了当我们在两个真实数据集上训练一个竞争性推荐器,神经矩阵分解(NeuMF) [16]时,假阳性交互的负面影响的经验证据。特别是,我们通过消除推荐者评估的假阳性交互来构建一个“干净”的测试集。可以看出,与没有假阳性相互作用(即干净训练)的训练的神经外膜相比,训练有假阳性相互作用(即正常训练)的神经外膜在两个数据集(Recall@20和NDCG@20)上的平均表现分别下降了16.65%和10.29%。因此,考虑隐含反馈中不可避免的噪声和消除误报交互对推荐器训练的影响至关重要。
事实上,一些努力 [7,21,41]致力于通过以下方式消除假阳性相互作用的影响:1)负面经验识别21,33;和2)各种反馈的结合41,43前者通过预测1每个假阳性交互由交互后行为的辅助信息识别,例如评分得分([1,5]) < 3,指示交互项目不满足用户,来预先处理隐式反馈。更多详情请参考第2节。会议’17,2017年7月,华盛顿,,美国王文杰,冯富礼,何湘南,聂,蔡达生,具有附加用户行为(例如,停留时间和注视模式)和辅助项目特征(例如,项目描述的长度)的假阳性[33]。后者将额外的反馈(例如,喜欢和跳过)结合到推荐器训练中,以消除误报交互的影响[43]。这些方法的一个关键限制是,它们需要额外的数据来执行去噪,这可能不容易收集。此外,额外的反馈(如评分和喜好)通常规模较小,这可能会受到稀疏性问题的影响。例如,许多用户在看完电影或购买产品后没有给出任何反馈[18]。
1 Data with noisy implicit feedback带有噪声隐式反馈的数据
2Recommender training推荐培训
3Low-quality recommendation低质量推荐
4Additional features: Dwell time, Item features附加功能:停留时间、项目功能。
5Binary Classification二元分类
6User satisfaction: 0/1用户满意度0/1
7Additional feedback Skip or complete Favorite附加反馈跳过或完成收藏夹
8Recommender training with extra feedback具有额外反馈的推荐者培训
9Denoising recommender training去噪推荐器训练
10Denoising interactions去噪交互
11Negative experience identification负面经验识别
12Incorporating various feedback包含各种反馈
13Denoising training without extra data去噪训练不需要额外的数据
图一:正常训练的对比(一);通过额外数据(b)和©消除假阳性相互作用的两种现有解决方案;和去噪训练,而不需要额外的数据(d)。请注意,useritem图中的红线表示假阳性交互。
这项工作探索了为推荐者训练去噪隐式反馈,这自动减少了假阳性交互的影响,而不使用任何额外的数据(图1(d))。也就是说,我们只依靠隐含的交互,并在不同的用户和项目之间提取假阳性交互的信号。先前关于稳健学习[13,20]和课程学习[2]的研究表明,噪声样本相对更难拟合到模型中,表明噪声样本在训练过程中损失值的不同模式。跨不同推荐者和数据集的初步实验(例如,图3)揭示了类似的现象:在训练的早期阶段,假阳性相互作用的损失值大于真阳性相互作用的损失值,而最终它们的损失值下降到相同的范围。因此,由于损失较大,假阳性交互会在很大程度上误导早期的推荐器训练。更糟糕的是,推荐器最终适合假阳性交互,因为它具有很高的表示能力,这可能会过度拟合并损害泛化能力。因此,去噪的潜在想法是减少假阳性相互作用的影响,例如,修剪具有大损失值的相互作用,其中关键挑战是同时减少真阳性相互作用的牺牲。
为此,我们为推荐者提出了自适应去噪训练策略,该策略在训练过程中动态修剪掉损失较大的交互。为避免丢失通用性,我们只关注训练损失的公式,它可以应用于任何可微模型。具体来说,我们设计了两种模式来表示训练损失:1)截断损失,它动态地丢弃大损失交互;2)重新加权损失,它自适应地重新加权交互。对于每次训练迭代,截断损失用一个在训练过程中自动更新的动态阈值去除大损失样本(即硬样本)。此外,重新加权损失动态地分配具有较小权重的“较难”交互,以削弱它们对优化的影响。我们在广泛使用的二元交叉熵损失的基础上实例化了两个损失函数。在三个基准上,我们在三个有代表性的推荐器上测试了用截断损失或重新加权损失训练的ADT:广义矩阵分解(GMF) [16],NeuMF [16],和协同去噪自动编码器(CDAE) [40]。结果表明,与正常训练相比,ADT的性能有显著提高。
表1 :NeuMF在Adressa和Amazonbook上的干净训练和正常训练的成绩对比。#下降表示与干净训练相比,正常训练的相对性能下降。
我们的主要贡献总结如下:
1我们为推荐器训练制定去噪隐式反馈的任务。我们发现假阳性相互作用的负面影响,并在训练中确定它们的特征(即硬样本)。
2我们提出了自适应去噪训练来动态修剪大损失交互作用,它引入了两种范式来表示训练损失:截断损失和重加权损失.
3我们对二元交叉熵损失的两个范例进行了实例化,并将ADT应用于三个有代表性的推荐器。在三个基准上的大量实验验证了ADT在提高推荐质量方面的有效性。
2假阳性反馈的研究
噪声训练样本的影响已经在传统的机器学习任务中进行了研究,例如图像分类[13,20]。然而,很少有人关注这种对推荐的影响,这种影响本质上不同于具有高度相关训练样本的传统任务,例如关于同一项目的交互。我们通过比较接受和不接受虚假正面互动训练的推荐者的表现来研究虚假正面互动对推荐者训练的影响。根据明确的反馈,交互被识别为假阳性或真阳性。例如,如果以下评分([1,5]) < 3,则购买为假阳性。虽然这种显式反馈的规模通常不足以在现实场景中构建健壮的推荐器,但其规模足以进行试点实验。具体来说,我们在两种不同的设置下训练了一个竞争性的推荐模型NeuMF:1)“干净训练”,它只在真正交互上训练NeuMF.和2)“正常训练”,在所有观察到的用户项目交互上训练NeuMF。我们在保持真正交互的保持清洁测试集上评估推荐性能,即评估侧重于向用户推荐更令人满意的项目。更多细节可参见第5节
结果:表1总结了NeuMF在正常训练和清洁训练下的性能。Recall@20和NDCG@20在两个代表性数据集Adressa和Amazon-book上的表现。从表1中,我们可以观察到,与理想的设置,即干净的训练相比,正常训练的性能在Adressa和Amazon-book上分别下降了11.77%和8.8%。该结果显示了假阳性交互对向用户推荐满意项目的负面影响。更糟糕的是,来自正常培训的推荐有更高的风险导致进一步的误报交互,这将损害用户体验[33]。尽管清洁培训在试点研究中取得了成功,但在实际应用中这不是一个合理的选择,因为评分等可靠反馈的稀疏性问题。因此,去噪隐性反馈,如点击、查看或购买,对推荐者进行培训是值得探索的。
3方法
一般来说,推荐器训练的目标是从用户反馈中学习用户偏好,即学习评分函数![在这里插入图片描述](https://img-blog.csdnimg.cn/20210617180019668.
来评估user u对具有参数θ的项目i的偏好。理想情况下,推荐者训练的设置是从N个用户(u)和M个项目(i)之间的一组可靠反馈中学习训练θ。也就是说,给定
,我们通过最小化
上的推荐损失来学习参数θ,例如二元交叉熵(CE)损失:
这里的
代表user u是否真的更喜欢项目i。
具有θ*的推荐器将可靠地产生高质量的推荐。在实践中,由于缺乏大规模的可靠反馈,推荐者培训通常形式化为:
其中I}是一组隐式交互。
表示用户是否与项目i有隐性互动,如点击购买。
然而,由于噪声交互的存在会误导用户偏好的学习,典型的推荐器训练可能导致在clean测试集上缺乏泛化能力的poor模型(例如θ)。因此,我们将去噪推荐器训练任务表述为:
旨在通过去噪隐式反馈,即修剪噪声交互的影响,学习一个参数为θ*的可靠推荐器。在形式上,通过假设
之间存在不一致性,我们定义了噪声相互作用,比如
,根据
的值,我们可以将隐式反馈分成四类,类似于图2所示的混淆矩阵。
图二,四种类型的隐式交互。
在这项工作中,我们将重点放在去噪假阳性交互上,而忽略假阴性交互,因为推荐中的阳性交互要少得多,因此假阳性交互会对推荐器的训练产生更坏的影响。请注意,我们没有将任何额外的数据,如显式反馈或可靠的隐式反馈纳入去噪任务,尽管它们在一些应用中取得了成功[33,39]。这是因为这种反馈在大多数情况下规模较小,更严重地受到稀疏性问题的影响。
图三,在NeuMF的正常训练中真阳性和假阳性相互作用的训练损失。
3.2观察结果
假阳性相互作用在早期阶段更难适应。在稳健学习[13,20]和课程学习[2]中,一个理论是简单样本更有可能是干净样本,拟合硬样本可能会损害泛化。为了探索它是否也存在于推荐中,我们通过在Adressa和Amazon-book上用所有观察到的隐式交互(即正常训练)训练NeuMF来进行实验。图3显示了在Adressa中真阳性和假阳性相互作用的损失。请注意,在其他推荐者和数据集上也发现了类似的趋势(详见第5.2.1节)。从图3中,我们观察到:
1最终,真阳性和假阳性相互作用的损失都收敛到具有接近值的稳定状态,这意味着NeuMF很好地适合它们两者。它反映了具有大量容量的深度模型将“记忆”所有训练数据,包括噪声样本。因此,如果数据有噪声,记忆将导致较差的概括性能。
2在训练的早期阶段,真阳性和假阳性相互作用的损失值降低的程度不同。此外,在图3(b)中,我们放大以可视化从0到1000范围内的损耗r.t .迭代的变化。从图中,我们可以看到假阳性相互作用的损失明显大于真阳性相互作用的损失
这表明假阳性相互作用比早期的真阳性记忆更难记忆。原因可能是假阳性代表用户不喜欢的项目,它们更类似于用户没有与之交互的项目(即阴性样本)。这些发现也支持了稳健学习和课程学习的先验理论[2,13].
总的来说,结果与记忆效果一致[1]:深度模型将首先学习早期简单干净的模式,最终记住所有的训练样本[13]。
图4:观察到的相互作用的T-CE损失图解。Ti是迭代次数,指的是阈值。虚线区域表示有效损耗,损耗值大于被截断。
3.3自适应去噪训练
基于这些观察,我们为推荐者提出了ADT策略,根据训练损失估计
。为了减少假阳性相互作用的影响,ADT在训练过程中动态修剪大损失的相互作用。特别地,自动测试技术要么丢弃要么重新加权具有大损失值的交互,以减少它们对训练目标的影响。为此,我们设计了两个范例来制定去噪训练的损失函数:
1截断损失。这是用动态阈值函数将大损失相互作用的损失值截断为0。
2加权损失。它在训练过程中自适应地分配权重较小的硬样本(即损失较大的样本)。
请注意,这两个范例制定了各种建议损失函数,例如,成本效益损失、平方损失[35]和业务流程再造损失[34]。在工作中,我们以CE损耗为例进行了阐述。
3.3.1截断交叉熵损失
从功能上来说,截断交叉熵(简称T-CE)损失丢弃了与大的CE损失值的正相互作用。形式上,我们可以定义为:
其中
是预先定义的阈值。T-CE损失消除了训练中任何与比
损失更大的CE损失的积极相互作用。虽然这种简单的T-CE损耗易于解释和实现,但固定阈值可能无法正常工作。这是因为损失值随着训练迭代的增加而减小。受动态梯度下降法[22]的启发,我们将固定阈值替换为动态阈值function
训练iteration T,这将在训练过程中改变阈值(图4)。此外,由于不同数据集的损失值不同,设计
作为
(下降率函数)下降率的函数会更加灵活。
请注意,下降率和阈值之间有一个双射,即对于任何训练迭代,如果下降率给定,我们可以计算阈值来过滤掉样本。
基于先前的观察,适当的下降速率函数应该具有以下特性:1)
函数应该具有上限,以限制丢弃样本的比例,从而防止数据丢失。
2)
= 0,即它应该允许所有样本在开始时被送到模型中。
3)
应该从零平滑地增加到它的上限,以便模型可以逐渐学习和区分真阳性和假阳性相互作用。
为此,我们将下降率函数表述为:
其中
是上限,并且α是调整速度以达到最大下降率的超级参数。请注意,我们以线性方式而不是更复杂的函数(如多项式函数或对数函数)来提高下降率。尽管这些功能具有表现力,但它们不可避免地会增加超参数的数量,从而导致调整推荐器的成本增加。整个算法在算法1中说明。请注意,T-CE损失丢弃了更有可
能是有噪声的硬样本。它对称地与铰链损失(Hinge Loss)相反,并且T-CE损失限制模型过拟合。
3.3.2重加权交叉熵损失
从功能上讲,重新加权的交叉熵(简称为R-CE)损失降低了具有大损失值的正相互作用的权重,其定义为:
其中
是调整观察到的交互对训练目标的贡献的权重函数,为了实现适当降低大损失样品重量的目标,重量function功能函数
预计具有以下特性:
1)在训练过程中动态调整样本的权重;
2)该功能将减少硬样本的影响,使其弱于易样本;以及
3)权重降低的程度可以容易地调整,使得它可以适合不同的模型和数据集。
受到聚焦损失[30]的成功的启发,我们用
的函数来估计
,该函数将预测分数作为输入。
请注意,预测分数和CE损失相当于识别硬样本(即大损失样本)。我们使用预测分数作为权重函数的输入,因为它的值在[0,1]内,而不是[0,+∞],这更有利于进一步的计算。为此,我们将其表述为:
其中β∈[0,+∞]是控制权重范围的超级参数,从图5(a),我们可以看到,与原始CE损失相比,配备了所提出的权重函数的R-CE损失可以显著减少硬样本
的损失。此外,所提出的权重函数满足前述要求:
1)
对参数敏感,这与损失价值密切相关。因此,它会在训练过程中产生动态重量。
2)具有极大电流消耗的相互作用(例如,图5(b)中的“异常值”)将被分配非常小的权重,因为
接近0。因此,这种大损失样本的影响大大降低。另外,如图5(b)所示,较硬的样本总是具有较小的权重,因为当
∈ [0,1]和β∈[0,+∞]时,函数
单调增加。
因此,它可以避免在训练期间具有大损失值的假阳性相互作用主导优化[42]。
2)超参数β动态控制硬样本和简单样本之间的权重差,通过观察图5(b)中的例子,我们可以发现:1)如果β增加,对于同一对简单样本和硬样本,它们的权重之间的差距变大
;2)如果我们将β设置为0,则R-CE损耗将降低到标准CE损耗。
在实践中,为了确保所有样本的损失值都在相同的范围内,防止具有大损失值的负样本主导优化,负样本也在该范例中被加权。在形式上,我们将权重函数修改为:
事实上,它可能提供一种可能的解决方案来减轻假阴性相互作用的影响,这有待于未来的探索.
图5:R-CE损耗图解与分析
第5.2.3节研究了对超参数的敏感性。
(a)观察到的正相互作用的R-CE损失。大损失样本的贡献大大降低。
(b)具有不同参数β的权重函数,其中β控制硬样本和简单样本之间的权重差异.
3.3.3深入分析
由于ADT完全依赖推荐者来识别假阳性相互作用,一个问题可能是它是否可靠。事实上,许多现有的工作[13,20]已经指出了大损失和噪声样本之间的联系,并解释了潜在的因果关系:深度模型的“记忆”效应。即深度模型会先在初始训练阶段学习简单干净的模式,然后逐渐记忆所有样本,包括有噪声的样本。因此,早期深度模型的丢失有助于过滤掉有噪声的交互。我们在第3.2节和第5.2.1节通过实验讨论了推荐者的记忆效应。第5.2.2节还对T-CE损耗的性能进行了探讨。
另一个问题是,一些硬样本可能比简单样本信息更多,丢弃硬样本会限制模型的学习能力。事实上,如先前的研究[2]所示,噪声数据中的硬样本可能会混淆模型,而不是帮助它建立正确的决策面。因此,它们可能导致较差的概括。这实际上是一种去噪和学习之间的权衡。在ADT中,T-CE损失的和R-CE损失的β是控制平衡的。
4相关工作
这项工作旨在消除推荐者的隐性反馈,这与负面经验识别、各种反馈的融合以及推荐者的稳健性密切相关。
负面经验识别,为了缩小隐含反馈和实际用户偏好之间的差距,许多研究人员已经注意识别隐含信号中的负面体验[7,21]。先前的工作通常收集各种用户的反馈(例如,停留时间[21]、凝视模式[46]和跳过[7])和项目特征[32,33]来预测用户的满意度。陆(研究者的姓)等[32]基于各种用户行为、新闻质量和交互上下文预测用户在新闻推荐中的实际偏好。然而,这些方法需要额外的反馈和大量的人工标注工作,例如,用户必须说明他们是否对每次交互都满意。此外,项目质量和特征的量化并不简单[32],这在很大程度上依赖于人工特征设计和领域专家的标注[32,33]。负担不起的人工成本阻碍了这些方法的实际使用,尤其是在项目不断变化的情况下。
整合各种反馈,为了减轻假阳性相互作用的影响,以前的方法[8,26,31,41,44]也考虑将更多的反馈(例如,停留时间[43],跳过[27,45],并添加到收藏夹)直接纳入训练。例如,文等人[39]提出使用三种项目来训练推荐器:“点击完成”、"点击跳过"和"非点击"项目。后两种项目都被视为负样本,但权重不同。然而,在复杂的场景中可能无法获得额外的反馈。例如,我们不能在用户购买产品或在电影院观看电影后获得停留时间和跳过模式。大多数用户甚至在点击后都没有给出任何信息反馈。在一个正交的方向,这项工作探索去噪隐式反馈没有额外的信息在训练。
推荐系统的健壮性,Gunawardana等人[12]将推荐系统的健壮性定义为“在存在虚假信息的情况下推荐的稳定性”。
先前的工作[25,36]试图评估推荐系统在各种攻击方法下的稳健性,例如先令攻击[25]和模糊攻击[36]。为了构建更加健壮的推荐系统,一些基于自动编码器的模型[28,37,40]引入了去噪技术。这些方法(例如,CDAE [40])首先通过随机噪声破坏用户的交互,然后尝试用自动编码器重建原始的交互。然而,这些方法侧重于启发式攻击或随机噪声,而忽略了数据中的自然假阳性相互作用。这项工作突出了自然噪声交互的负面影响,并提高了它们的稳健性来应对自然噪声交互的负面影响。
表2:数据集的统计数据。特别是,#FP相互作用是指假阳性相互作用的数量
#Interaction相互作用的数量
#FP Interaction 假阳性相互作用的数量
Dataset资料组
5 实验
数据集。为了评估所提出的自动推荐技术在推荐器训练上的有效性,我们在三个可公开访问的数据集上进行了实验,Adressa, Amazon-book, and Yelp。
1,Adressa 这是来自Adresessavisen 2[11]的真实世界新闻阅读数据集。它包括用户点击新闻和每次点击的停留时间,停留时间小于10秒的点击被认为是假阳性[21,43]。
2,Amazon-book 它来自亚马逊评论数据集3[14]。它涵盖了用户对评分书籍的购买。评分低于3分被视为假阳性互动。
3,Yelp 这是一个开放的推荐数据集4,用户可以在其中查看餐饮业的业务(如餐馆和酒吧)。和亚马逊-book类似,评分低于3分被视为假阳性反馈。
这些数据集包括常见的隐式反馈:点击、购买和消费,它们适合于探索隐式反馈去噪的有效性,尽管显式反馈也存在于每个交互中。我们遵循以前的工作[15,28,38],移除交互极其稀疏的用户和项目,并将数据集分为训练、验证和测试(统计数据见表2)。为了评估去噪隐式反馈的有效性,我们在训练和验证中保留了所有的交互,包括假阳性的交互,并且只在真阳性的交互上测试推荐者。也就是说,模型被期望向用户推荐更令人满意的项目。
评估协议,对于测试集中的每个用户,我们预测了所有项目的偏好分数,除了在训练中使用的阳性项目。根据现有的研究[16,38],我们报告了两个广泛使用的指标的推荐性能:Recall@K和NDCG@K,其中更高的分数表示更好的性能。对于这两个指标,我们为Amazonbook和Yelp分别设置了50和100,而为Adressa设置了3和20,因为它的项目空间要小得多。
推荐者测试,为了证明我们所提出的ADT策略在去噪隐式反馈方面的有效性,我们比较了接受过测试T-ce或测试R-CE训练的推荐者和接受过标准CE训练的正常推荐者的表现。我们选择了两个有代表性的基于用户的神经CF模型,GMF和NeuMF [16],和一个基于项目的模型,CDAE [40]。注意,
CDAE也是稳健推荐器的一个代表模型,它可以在隐式反馈中保护随机噪声。
1,GMF [16]:这是矩阵分解的一个广义版本,用元素方向的乘积和线性神经层作为交互作用函数来代替内积。
2,NeuMF [16]:NeuMF是一个典型的CF神经模型,它通过结合GMF和多层感知器(MLP)来模拟用户和项目之间的关系。
3,CDAE [40]:CDAE用随机噪声破坏了相互作用,然后用MLP模型重建原始输入。
我们只测试了神经推荐器,省略了常规的如MF[24]和SVD++[23],因为它们的性能较差[16,40]。
参数设置。对于三个测试推荐器,我们遵循它们的默认设置,并在相同的条件下验证了我们的方法的有效性。对于GMF和NeuMF,用户和项目的因子数都是32。至于CDAE,MLP的隐藏面积被设定为200。此外,批量大小始终为1,024,并应用Adam[22]优化所有参数,学习率初始化为0.001。
至于自动数据处理策略ADT,它们总共有三个超参数:α and in T-CE loss,and β in R-CE loss,详细的,∈{0.05,0.1,…,0.5},β∈{0.05,0.1, …,0.25,0.5,1.0},至于α,我们通过迭代次数来控制它的范围,最大下降率,并且在{1k,5k,10k,20k,30k}之间调节。
5.1性能比较
表3总结了在三个数据集上用CE、T-CE或R-CE训练的三个测试模型的推荐性能比较。从表3中,我们可以观察到:
1,在所有情况下,T-CE损失和R-CE损失都有效地提高了性能,例如,Neumaf+T-CE在三个数据集上的平均性能比普通Neumaf高12.98%。显著的性能增益表明,用T-CE损失和R-CE损失训练的神经推荐器具有更好的泛化能力。它验证了自适应去噪训练的有效性,即在训练过程中丢弃或降低硬样本的权重。
2,通过比较T-CE和R-CE,我们发现T-CE在大多数情况下表现更好。我们假设,当使用重加权损失训练时,推荐器仍然遭受假阳性交互,即使它们具有较小的权重并且对总训练损失贡献很小。此外,我们怀疑截断损失的优越性能可以归因于动态阈值函数中的额外超参数,这些参数可以更精确地调整。通过对这些参数进行更细粒度的用户特定或项目特定的调整,可以实现进一步的改进,这可以自动完成[5]。
3,在所有推荐者中,NeuMF的表现不如GMF和CDAE,尤其是在Amazon-book
和Yelp上,后者因易受嘈杂交互的影响而受到批评。因为我们的测试只针对真正积极的互动,NeuMF的低性能是合理的,因为NeuMF参数越多,在训练过程中可以拟合越多的假阳性交互。
4两种算法T-CE and R-CE在神经网络上的性能都得到了最大的提高,验证了自适应学习算法在防止脆弱模型受到噪声数据干扰方面的有效性。相反,相对于CDAE的改进相对较小,表明防御随机噪声的设计也可以在一定程度上提高对误报交互的鲁棒性。然而,应用T-CE或R-CE仍然会导致性能增益,这进一步验证了去噪隐式反馈的合理性。
表格3:用ADT策略和三个数据集上的正常训练训练的三个测试推荐者的总体性能。请注意,Recall@K和NDCG@K被简称为R@K和N@K,以节省空间,最后一栏中的“RI”表示平均日常生活能力相对于正常训练的改善。最佳结果以粗体突出显示。
下面,以GMF为例,对计算成本的考虑进行深入研究。
与使用额外反馈的进一步比较。为了避免假阳性交互的不利影响,一个流行的想法是将额外的用户反馈纳入训练,尽管它们通常很少。现有的工作要么采用多任务学习的额外反馈[9,10],要么利用它来识别真正的积极互动[32,39]。在这项工作中,我们引入了两个经典的比较模型:神经多任务推荐(NMTR) [10]和负反馈重加权(NR) [39]。特别地,具有多任务学习的NMTR是捕捉多个用户行为(即点击和满意度),而自然资源利用附加反馈(即停留时间和评级)来识别具有用户满意度的真阳性交互,并将假阳性和未交互的重新加权为阴性样本。我们在测试推荐器上应用了NMTR和NR,并在表4中报告了GMF的结果。为了节省空间,省略了其他趋势相似的推荐者的结果。
从表4中,我们可以发现:1) NMTR和NR获得了比GMF更好的性能,这验证了附加反馈的有效性;(2)NMTR和NR的结果都不如自动数据处理ADT的结果。这归因于额外反馈的稀疏性。实际上,满意的点击次数比总点击次数少得多,因此NR将会丢失大量的正训练样本。此外,并非所有没有标注用户满意度的点击都表示用户不喜欢,因为许多用户即使满意也很少给出明确的反馈。因此,将它们视为阴性样本会损害性能,这也是[6]中的实验发现的。
表格4:GMF在Amazon-book上的表现。
相互作用稀疏性的性能比较,由于ADT在训练过程中修剪了许多交互,我们探索了ADT是否会因为非活跃用户的交互项目稀疏而损害他们的偏好学习。根据以前的研究[38],我们根据每个用户的交互数量将测试用户分成四组,其中每组具有相同数量的交互。图6显示了组内的性能比较,我们可以观察到所提出的ADT策略在所有情况下都比正常训练获得了稳定的性能增益。验证了ADT对不活跃用户也是有效的。
图6,Amazon-book和Yelp在不同稀疏度用户群的GMF性能上的比较。柱状图代表每组中的用户数量,线条代表NDCG @100的性能。
图7,GMF (a), GMF+T-CE (b) and GMF+R-CE ©的损失,
图8,用ADT训练的GMF在Yelp和Amazon-book上的性能比较。
图9.基于Amazon book 截断损失训练的GMF假阳性交互的召回和精确度。
5.2深入分析
5.2.1假阳性相互作用的记忆
回想一下,在正常训练下,推荐者最终会记住假阳性相互作用,导致概括能力差(参见第3.2节)。然后,我们研究了假阳性相互作用是否也适用于接受ADT策略训练的推荐者。考虑到原始的交互作用损失值反映了模型对样本的拟合能力,我们以真实的训练损失作为参考,描述了训练过程中虚假交互作用的交互作用损失。
从图7(a)中,我们可以发现3.2节中的观察结果也存在于GMF在Amazon-book上的培训中。假阳性相互作用的损失值最终变得与其他样本相似,表明GMF最终很好地拟合了假阳性样本。相反,如图7(b)所示,通过应用T-CE,假阳性相互作用的损失值不断增加,而整体训练损失逐步稳定下降。损失的增加表明推荐器参数没有针对假阳性交互进行优化,验证了T-CE识别和丢弃这种交互的能力。至于R-CE(图7©),假阳性交互的损失也呈下降趋势,表明推荐者仍然适合这种交互。然而,它们的损失值仍然大于真实的训练损失,这表明假阳性交互被R-CE分配了较小的权重,这使得模型无法拟合它们。因此,我们可以得出结论,两种范式都降低了误报交互对推荐器训练的影响,这可以解释它们相对于正常训练的改进。
5.2.2截断损失的研究
由于截断损失在实验中获得了很好的表现,我们研究了它在识别和丢弃假阳性相互作用方面的表现。我们首先定义了召回率来表示训练数据中假阳性交互作用被丢弃的百分比,精度是指被丢弃的假阳性交互作用与所有被丢弃样本的比率。图9可视化了在训练过程中召回率和精确度的变化。图9中的绿线表示随机丢弃设置下的召回率和准确率。特别是,随机丢弃的召回率等于训练期间的丢弃率,而它的精度是每次迭代中所有训练样本中噪声交互的比例.
从图9中,我们观察到:1)在下降率保持稳定后,截断损失丢弃了近一半的假阳性相互作用,大大降低了噪声相互作用的影响;2)截断损失的精度约为随机丢弃的两倍。这表明截断损失有效地利用了假阳性相互作用的提取信号,削弱了它们对模型训练的贡献。尽管如此,我们可以发现截断损失的一个关键限制是精度低,例如,在图9中只有10%的精度,这意味着它不可避免地丢弃了许多干净的交互。这也部分证明了以失去许多干净样本为代价来修剪嘈杂的交互是值得的。ADT中的超参数控制去噪和丢失干净样本之间的权衡。此外,如何进一步提高精度以减少干净样品的损失也是一个很有前途的研究方向。
5.2.3超参数灵敏度
我们提出的自动数据处理策略结合了三个超参数来调整两个范例中的动态阈值函数和权重函数。特别是,
用于控制截断损失中的下降率,and
β用来调整重新加权损失中的权重函数。在本节中,我们研究了超参数如何影响性能。由于篇幅限制,图8中只报告了GMF在Amazon-book和Yelp上用ADT策略训练的结果。三个数据集上的其他方法具有相似的模式。从图8中,我们可以发现:1)当
时,经过T-CE损失训练,推荐者可以表现得更好。如果
超过0.4,性能显著下降,因为大量样本被丢弃。因此,
的上限需要被限制,2)推荐者对
是比较敏感的,在Amazon-book上尤为明显,当
时性能仍在提高,然而,T-CE loss的一个限制是超参数的大搜索空间。
3)在不同的数据集上,β在重加权损失中的调整是一致的,当β在0.15到0.3之间时,结果最好。这些观察提供了关于如何调整ADT的超参数的见解,如果它应用于其他推荐器和数据集的话。
6结论和未来工作
在这项工作中,我们的目标是去噪隐式反馈推荐训练。我们探讨了噪声隐含反馈的负面影响,并提出了自适应去噪训练策略来降低其影响。特别是,这项工作有助于两种范式来制定损失函数:截断损失和重新加权损失。这两种范式都是通用的,可以应用于不同的损失函数、神经推荐器和优化器。在这项工作中,我们将这两种范式应用于广泛使用的二元交叉熵损失,并在三个数据集上对三个推荐器进行了广泛的实验,表明这两种范式有效地减少了噪声隐式反馈的干扰。
这项工作迈出了第一步,在不使用额外反馈进行训练的情况下,对推荐的隐式反馈进行去噪,并指出了一些新的研究方向。具体来说,探索所提出的两个范例如何在其他损失函数上执行是有趣的,例如平方损失[35],铰链损失[35]和BPR损失[34]。此外,如何进一步提高范式的精度也值得研究。最后,我们的自适应去噪训练并不局限于推荐任务,它可以广泛应用于其他领域的隐式交互去噪,如网页搜索和问答
鸣谢
这项研究得到了新加坡国家研究基金会及其新加坡国际研究中心资助计划和中国国家自然科学基金(61972372,U19A2079)的支持。本材料中表达的任何观点、发现和结论或建议都是作者的观点、发现和结论或建议,并不反映新加坡国家研究基金会的观点。