论文阅读——CT4Rec Simple yet Effective Consistency Training for Sequential Recommendation

论文阅读——CT4Rec: Simple yet Effective Consistency Training for Sequential Recommendation

摘要

顺序推荐方法在尖端推荐系统中变得越来越重要。通过利用历史记录,系统可以捕获用户兴趣并相应地执行推荐。最近提出的最先进的顺序推荐模型结合了对比学习技术来获得高质量的用户表示。虽然有效且性能良好,但基于对比学习的模型需要仔细选择数据增强方法和借口任务、高效的负采样策略和大量的超参数验证。在本文中,我们提出了一种超简单的替代方案,用于获得更好的用户表示并提高顺序推荐性能。具体来说,我们提出了一种简单而有效的顺序推荐一致性训练方法(CT4Rec),其中仅使用两个额外的训练目标,而无需任何结构修改和数据增强。对三个基准数据集和一个新爬取的大型工业语料库的实验表明,我们提出的方法大大优于 SOTA 模型,并且与基于对比学习的方法相比,训练时间要少得多。现实世界内容推荐系统的在线评价也实现了点击率提升2.717%,人均点击次数提升3.679%。进一步的探索表明,这种简单的方法在点击率预测方面具有巨大的潜力。我们的代码可在 https://github.com/ct4rec/CT4Rec.git 获取。

1 INTRODUCTION

背景介绍了一下,DNN → \to RNN-Basd → \to CNN → \to GNN → \to multi-head self-attention → \to self-supervised learning strategies → \to contrastive learning(CL)[data augmentation strategies and cooperating with the vanilla sequential prediction objective]

贡献:

  • 为顺序推荐系统提出了一种简单(只有两个双向KL 损失)但非常有效的一致性训练方法。据我们所知,这是第一个从不同角度、统一训练目标对顺序推荐任务深入研究一致性训练效果的工作。
  • 提出的一致性训练方法可以轻松扩展到其他不一致场景和任务,例如数据增强和点击率预测。
  • 对四个离线数据集的广泛实验表明,我们提出的 CT4Rec 相对于基于对比学习的 SOTA 模型的有效性,具有更好的性能和更快的收敛时间。在线 A/B 测试还显示出相对于强集成模型的显着改进。

3 THE CT4REC MODEL

在这里插入图片描述

3.1 Backbone Model

文章将方法应用在SASRec模型上。

相似度分布:
P ( s u , t ; w ) = exp ⁡ ( s u , t v t + 1 + ) exp ⁡ ( s u , t v t + 1 + ) + ∑ v t + 1 − ∈ V exp ⁡ ( s u , t v t + 1 − ) (1) \mathcal P(s_{u,t};w) = \frac{\exp(s_{u,t}v^+_{t+1})}{\exp(s_{u,t}v^+_{t+1}) +\sum_{v^-_{t+1}\in \mathcal V} \exp(s_{u,t}v^-_{t+1})} \tag 1 P(su,t;w)=exp(su,tvt+1+)+vt+1Vexp(su,tvt+1)exp(su,tvt+1+)(1)

L b a s i c ( s u , t ; w ) = − log ⁡ P ( s u , t ; w ) (2) \mathcal L_{basic}(s_{u,t}; w) = -\log \mathcal P(s_{u,t}; w) \tag2 Lbasic(su,t;w)=logP(su,t;w)(2)

+ + +表示正样本; − - 表示负样本; P \mathcal P P 表示相似度分布

3.2 Consistency Training

由于深度神经网络模型广泛存在过拟合问题,包括 dropout 在内的正则化方法被广泛用于缓解这一问题。通常,dropout可以通过随机去除整个深度神经网络中一定比例的单元来减少过拟合和协同适应。此外,dropout 可以被视为一种生成和组合指数子模型的方法,它总是能有效地增强模型性能。考虑到上述优点和dropout的随机性,作者提出了基于 dropout 的CT4Rec来规范模型的输出空间和表示空间。受到最近关于 dropout 研究的启发,作者从减少模型不一致以及训练和测试之间的差距的角度增强了用户表示。

具体来说,使用不同的 dropout 进行两次转发,并学习每个用户的这两个表示之间的一致性,即每个用户交互序列 s u s_u su 通过前向网络两次,并获得两个表示 s u , t d 1 和 s u , t d 2 s^{d_1}_{u,t} 和 s^{d_2}_{u,t} su,td1su,td2 。由于 dropout 会随机删除模型中的单元,因此这两个表示实际上是从同一模型的两个子模型生成的

**Regularized Dropout Loss (RD). ** 首先,应用正则化的dropout损失来约束子模型的输出空间免受dropout的影响。由公式(1)我们可以得到2个相似分布。然后,引入双向KL-divergence损失来正则化这两个分布:
L R D ( s u , t ; w ) = 1 2 ( D K L ( P ( s u , t d 2 ; w ) ∥ P ( s u , t d 1 ; w ) ) + D K L ( P ( s u , t d 1 ; w ) ∥ P ( s u , t d 2 ; w ) ) ) (3) \mathcal L_{RD} (s_{u,t};w) = \frac 12(\mathcal D_{KL}(\mathcal P(s_{u,t}^{d_2};w)\Vert\mathcal P(s_{u,t}^{d_1};w))+\mathcal D_{KL}(\mathcal P(s_{u,t}^{d_1};w)\Vert\mathcal P(s_{u,t}^{d_2};w))) \tag 3 LRD(su,t;w)=21(DKL(P(su,td2;w)P(su,td1;w))+DKL(P(su,td1;w)P(su,td2;w)))(3)
Distributed Regularization Loss (DR). 为了更好地规范表示空间,我们提出了一种分布式正则化方法,其中每个用户通过其与其他用户的相关性来表示,而不是直接利用用户表示进行一致性正则化。如图2(b),相似度分布:
P u ( s u 1 d j ; w ) = s o f t m a x ( s i m ( s u 1 d j , s u 2 d j ) , . . . , s i m ( s u 1 d j , s u n d j ) ) (4) \mathcal P_u(s_{u_1}^{d_j};w) = softmax(sim(s_{u_1}^{d_j},s_{u_2}^{d_j}),...,sim(s_{u_1}^{d_j},s_{u_n}^{d_j})) \tag 4 Pu(su1dj;w)=softmax(sim(su1dj,su2dj),...,sim(su1dj,sundj))(4)
然后,应用双向 KL 散度损失来正则化两个分布:
L D R ( s u ; w ) = 1 2 ( D K L ( P u ( s u d 1 ; w ) ∥ P u ( s u d 2 ; w ) ) + D K L ( P u ( s u d 2 ; w ) ∥ P u ( s u d 1 ; w ) ) ) (5) \mathcal L_{DR} (s_{u};w) = \frac 12(\mathcal D_{KL}(\mathcal P_u(s_{u}^{d_1};w)\Vert\mathcal P_u(s_{u}^{d_2};w))+\mathcal D_{KL}(\mathcal P_u(s_{u}^{d_2};w)\Vert\mathcal P_u(s_{u}^{d_1};w))) \tag 5 LDR(su;w)=21(DKL(Pu(sud1;w)Pu(sud2;w))+DKL(Pu(sud2;w)Pu(sud1;w)))(5)
Final Objective. 特定任务的损失和最终的训练目标如下:
L b a s i c ( s u , t ; w ) = − 1 2 ( l o g P ( s u , t d 1 ; w ) + l o g P ( s u , t d 2 ; w ) (6) \mathcal L_{basic}(s_{u,t};w) = -\frac 12(log\mathcal P(s_{u,t}^{d_1};w)+log\mathcal P(s_{u,t}^{d_2};w) \tag 6 Lbasic(su,t;w)=21(logP(su,td1;w)+logP(su,td2;w)(6)

L f i n a l = L b a s i c + α L R D + β L D R \mathcal L_{final} = \mathcal L_{basic}+\alpha\mathcal L_{RD}+\beta\mathcal L_{DR} Lfinal=Lbasic+αLRD+βLDR

4 EXPERIMENTS

数据集: Amazon(Beauty、Sports)、Yelp、WeChat

Baselines: GRU4Rec、SASRec、TiSASRec、BERT4Rec、CL4Rec、CLRec、StackRec

Offline Evaluation: HR@k、NDCG@k

Online Evaluation: CTR(点击率)、ACN(人均点击次数)

在这里插入图片描述

CT4Rec可以在不增加在线计算成本的情况下显着提高在线性能,这对于在线服务来说是一个明显的优势,特别是考虑到机器成本。

5 ANALYSIS

5.1 Ablation Study

在这里插入图片描述

RD Objective. (regularized dropout (RD))**DR Objective. ** (DR Objective.)如图a、b所示,作者设计的DR和RD对性能的提升贡献很大。作者还采用了之前研究中的两种典型的无监督策略来规范用户表示,包括余弦相似度和 L2 ,如图所示这两种方法并没有给主干方法带来有意义的改进。

5.2 Hyper-Parameter Analysis

还是看图三的(a)、(b),分别研究了 α 和 β \alpha和\beta αβ的影响,详细结果看图。

在这里插入图片描述

如上图可以看出当dropout<0.7时适用且有效;dropout>0.8时会带来负面影响,这推测可能和数据稀疏性和不可调和的不一致有关。

5.3 Extension to Data Augmentation

在这里插入图片描述

1)我们引入的DR目标与其他单一方法相比是最有效的,即表示空间上的一致性正则化比数据增强场景更可取,这与dropout的观察相反环境。我们推测标签不变数据增强方法可能会导致排列和扰动的表示变体,这需要更多的一致性正则化,而标签不变策略不会恶化输出空间中的不一致性。

2)表示空间和输出空间(CT4Rec)中的一致性正则化的组合仍然表现最好,与其他训练目标相比具有一致且显着的性能。

5.4 Training and Cost Analysis

在这里插入图片描述

1)即使不考虑数据增强和负采样的时间成本,CT4Rec 也比基于对比学习的方法更加高效和有效;

2)CT4Rec确实为骨干模型引入了额外的训练时间,这可以通过提前停止来缓解,因为我们的CT4Rec可以在早期快速超越骨干模型,并具有更好的最终收敛性能。
4Rec 也比基于对比学习的方法更加高效和有效;

2)CT4Rec确实为骨干模型引入了额外的训练时间,这可以通过提前停止来缓解,因为我们的CT4Rec可以在早期快速超越骨干模型,并具有更好的最终收敛性能。

  • 11
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无监督的数据增强是一种用于一致性训练的技术。在机器学习任务中,一致性训练是指通过使用多个不同版本的输入数据来增强模型的鲁棒性和泛化能力。 传统的数据增强技术通常需要手动标注数据,并提供给模型进行有监督学习。然而,当可用的标注数据有限或者成本较高时,无监督的数据增强技术可以用来增加训练数据的数量和多样性,从而改善模型的性能。 无监督的数据增强技术通过对原始数据进行一系列变换和扰动来生成新的训练样本,而这些变换和扰动不需要额外的标注信息。这些变换可以包括图像翻转、旋转、缩放、平移、加噪声等等。通过这种方式,无监督的数据增强可以从有限的训练样本中生成大量的人工样本,有效地扩展了训练数据的规模和多样性。 无监督的数据增强可以用于各种机器学习任务,如图像分类、目标检测、语义分割等。通过在一致性训练中使用无监督的数据增强,模型可以学习到不同版本的输入数据之间的一致性,并提高对于噪声和变化的鲁棒性。例如,在图像分类任务中,模型可以通过看到同一张图像在不同变换下的预测结果来学习更稳定和一致的特征表示。 总之,无监督的数据增强是一种有效的技术,可以通过生成大量的人工训练样本来改善模型的性能。在一致性训练中,无监督的数据增强可以帮助模型学习到不同版本的输入数据之间的一致性,从而提高模型的鲁棒性和泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值