论文阅读——Theoretically Guaranteed Bidirectional Data Rectification for Robust Sequential Recommendation

Theoretically Guaranteed Bidirectional Data Rectification for Robust Sequential Recommendation

理论上保证稳健顺序推荐的双向数据纠正

Abstract

顺序推荐系统 (SRS) 通常经过训练,在给定其前面(和后续)项目作为输入的情况下,预测下一个项目作为目标。这种范例假设每个输入目标对对于训练都是可靠的。然而,可能会诱导用户点击与其真实偏好不一致的项目,从而导致不可靠的实例,即输入目标对不匹配。目前缓解这一问题的研究存在两个局限性:(i)它们根据使用不可靠数据训练的模型来区分实例可靠性,但没有理论上保证这种看似矛盾的解决方案可能是有效的; (ii)大多数方法只能处理不可靠的输入或目标,但无法同时处理两者。为了填补这一空白,我们从理论上揭示了 SRS 预测和实例可靠性之间的关系,从而提出了两种误差限策略来分别纠正不可靠的目标和输入。在此基础上,我们设计了一个与模型无关的双向数据纠正(BirDRec)框架,该框架可以灵活地与大多数现有的SRS一起实现,以针对不可靠的数据进行稳健的训练。此外,还设计了校正采样策略并采用自集成机制来降低 BirDRec 的(时间和空间)复杂度。对四个真实世界数据集的广泛实验验证了我们提出的 BirDRec 的通用性、有效性和效率。

1 Introduction

对于顺序推荐系统,日常生活中的干扰(例如朋友的推荐、账户共享、意外点击)可能会诱使用户的点击与其真实偏好不一致的项目,从而导致输入目标的不可靠的训练实例。不匹配可以分为 完全不匹配部分不匹配 。如下图,《La La Land》是朋友推荐的不可靠目标,与之前的超级英雄电影完全不匹配。相比之下。第二种情况下,它充当不可靠的输入项,导致输入序列与目标超级英雄电影部分不匹配。

在这里插入图片描述

已存在的解决这类问题的推荐系统的局限: (i) 它们根据使用不可靠数据训练的模型的中间或最终输出(SRS 本身或附加校正器)来区分实例可靠性。然而,没有理论上的保证这种看似矛盾的解决方案对于检测和纠正不可靠的实例是值得信赖的。 (ii) 大多数先前的研究仅侧重于解决不可靠的输入或目标,但未能同时处理两者

两种误差有限的纠正策略: (1)检测持续低分的目标(即不可靠的目标)并将其替换为稳定的高分项目;(2)检测并删除输入中持续低分的项目(即不可靠的输入),其中得分为通过反向 SRS 估计。

请注意,不可靠的输入项(作为输入中的中断)不会被替换,而是被直接删除以桥接前后项。基于这些策略,提出了一个与模型无关的双向数据纠正(BirDRec)框架,其中包含两个相反方向的 SRS,用于处理不可靠的目标和输入。此外,为了降低时间复杂度,设计了修正采样策略,以有效地获得一致的高分项目;为了降低空间复杂度,采用自集成机制[1] 来近似不同训练时期的加权平均预测分数。

[1] Hongjun Wang and Yisen Wang. Self-ensemble adversarial training for improved robustness. In ICLR, 2022.

贡献:

(1) 第一个提供基于SRS预测的理论上有保证的数据修正策略,以解决不可靠的输入和更稳健的SRS的目标。

(2) 设计了一个与模型无关的双向数据校正框架,可以灵活地与大多数现有的 SRS 一起实现,以针对不可靠的数据进行稳健的训练。

(3) 设计了校正采样策略并采用自集成机制来确保BirDRec更好的可扩展性。

(4) 基于跨不同领域的代表性骨干网和数据集的 SRS 的广泛实验验证了 BirDRec 的通用性、有效性和效率。

2 Related Works

为了抵御不可靠的数据,现有的鲁棒SRS可以分为三种类型

  • 侧重于通过识别和消除具有不可靠目标的实例来处理完全不匹配。
  • 专注于通过在制定用户的动态偏好表示时降低不可靠输入的重要性来解决部分不匹配问题。
  • 试图解决不可靠的目标和使用额外的校正器产生可靠数据的输入。

3 Theoretical Guarantees for Rectifying Unreliable Data

3.1 Preliminaries

这一小节作者先给出了推荐系统的问题表达。

然后作者给出了自己的核心假设,作者假设用户通常会按照趋势而不是随机的选择项目,所以 η \eta η (用户真实的偏好分布) 的最大值和中间值之间的概率差距不太可能会很小(指有一定的差距)。

假设 1 用户的真实偏好分布 η \eta η 满足 the relatex Multiclass Tsybakov [2]

[2] Di-Rong Chen and Tao Sun. Consistency of multiclass empirical risk minimization methods based on convex loss. JMLR, 7:2435–2447, 2006.

随后作者证明了$\eta $ 和SRS预测之间存在着关联。

纠正不可靠目标的定理

定理 1 可靠的目标在训练期间不太可能保持较低的预测分数。

DRUT: Detecting and Replacing Unreliable Targets. (DRUT:检测和替换不可靠的目标。)

DRUT的误差记为 E D R U T E_{DRUT} EDRUT ,有三种情况:(1)正确的目标 p 1 p_1 p1 v ~ t u \tilde v^u_t v~tu 但是被替换成了 v m v_m vm 。(2)正确的目标 p 1 p_1 p1 v m v_m vm 但是 v ~ t u \tilde v^u_t v~tu 被保留。(3)正确的目标既不是 v ~ t u \tilde v^u_t v~tu 也不是 v m v_m vm

在这里插入图片描述

后面作者提供了可以分别保证(1)(2)情况的有界阈值 β 1 和 β 2 \beta_1和\beta_2 β1β2 ,证明了即使从 β 1 和 β 2 \beta_1和\beta_2 β1β2 中选择 β \beta β ,DRUT仍然是有误差范围的。

纠正不可靠输入的定理

定理 1 表明始终低分的目标不太可能可靠。这启发我们利用反向 SRS 给出的预测分数来纠正不可靠的输入,即删除输入中始终低分(由反向 SRS 预测)的项目。

DDUI: Detecting and Deleting Unreliable Input. (DDUI:检测并删除不可靠的输入。)

DDUI 与 DRUT 略有不同,即我们删除不可靠的输入项来桥接后续项和前面的项,而不是替换它们。由于分心导致的不可靠输入项本质上是输入序列的中断,因此替换它们可能会引入新的中断。

DDUI的误差记为 E D D U I E_{DDUI} EDDUI ,有两种情况:(1) v ~ t − l u \tilde v_{t-l}^u v~tlu是可靠的输入项但是被删除了。(2) v ~ t − l u \tilde v_{t-l}^u v~tlu是不可靠的输入项但是被保留了。

在这里插入图片描述

4 The Proposed BirDRec Framework

通过将 DRUT 和 DDUI 集成到现有的 SRS 中,我们引入了 BirDRec,一种与模型无关的双向数据校正框架,它可以纠正不可靠的目标和输入,并为更强大的 SRS 提供理论保证。然而,由于 DRUT 和 DDUI 中不同时期的每个实例的预测分数的计算和存储,BirDRec 的复杂性非常高。为了缓解这个问题,我们设计了一种纠正采样策略 ,避免对整个项目集进行预测来替换不可靠的目标或删除不可靠的输入,从而降低 BirDRec 的时间复杂度。同时,我们采用自集成机制[1]来近似不同时期的加权平均预测分数,从而避免保留所有时期的分数并降低空间复杂度。

在这里插入图片描述

具体来说,BirDRec首先利用自集成前向SRS通过DRUT来校正实例的目标,然后通过自集成后向SRS通过DDUI来校正输入。此后,校正实例及其 L L L个后向实例分别用于训练前向和后向SRS,最终用于更新相应的自集成SRS。

后面作者证明了通过修正采样降低时间复杂度通过自集成机制降低空间复杂度 的原理。

5 Experiments and Results

作者分别在四个公开的数据集上进行实验:ML-1M、Beauty、Yelp、QK-Vedio。

基线方法(使用基于代表性骨干网的普通 SRS 来实现它):FPMC、Caser、GRU4Rec、SASRec、BERT4Rec、MAGNN。

在这里插入图片描述

详细实验结果和分析可以看论文。

限制: 首先,对于较小的项目集,BirDRec 对存储成本的改进有限。其次,虽然 BirDRec 明显比最新的鲁棒 SRS(STEAM)快,但值得注意的是,在每个训练时期,BirDRec 比其骨干模型(如图 3 所示)平均慢 1.6 倍。

对存储成本的改进有限。其次,虽然 BirDRec 明显比最新的鲁棒 SRS(STEAM)快,但值得注意的是,在每个训练时期,BirDRec 比其骨干模型(如图 3 所示)平均慢 1.6 倍。


最近学校里有些事情,更新的有些慢。感觉多看论文一定会对自己之后的研究有所启发的,但是要连续的阅读,保持感觉~~希望自己可以顺利完成任务!!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值