论文阅读——CT4Rec Simple yet Effective Consistency Training for Sequential Recommendation_ct4rec: simple yet effective consistency training -CSDN博客

本文链接：https://blog.csdn.net/weixin_43954673/article/details/136944213

论文阅读——CT4Rec: Simple yet Effective Consistency Training for Sequential Recommendation

摘要

顺序推荐方法在尖端推荐系统中变得越来越重要。通过利用历史记录，系统可以捕获用户兴趣并相应地执行推荐。最近提出的最先进的顺序推荐模型结合了对比学习技术来获得高质量的用户表示。虽然有效且性能良好，但基于对比学习的模型需要仔细选择数据增强方法和借口任务、高效的负采样策略和大量的超参数验证。在本文中，我们提出了一种超简单的替代方案，用于获得更好的用户表示并提高顺序推荐性能。具体来说，我们提出了一种简单而有效的顺序推荐一致性训练方法（CT4Rec），其中仅使用两个额外的训练目标，而无需任何结构修改和数据增强。对三个基准数据集和一个新爬取的大型工业语料库的实验表明，我们提出的方法大大优于 SOTA 模型，并且与基于对比学习的方法相比，训练时间要少得多。现实世界内容推荐系统的在线评价也实现了点击率提升2.717%，人均点击次数提升3.679%。进一步的探索表明，这种简单的方法在点击率预测方面具有巨大的潜力。我们的代码可在 https://github.com/ct4rec/CT4Rec.git 获取。

1 INTRODUCTION

背景介绍了一下，DNN $\to$ RNN-Basd $\to$ CNN $\to$ GNN $\to$ multi-head self-attention $\to$ self-supervised learning strategies $\to$ contrastive learning(CL)[data augmentation strategies and cooperating with the vanilla sequential prediction objective]

贡献：

为顺序推荐系统提出了一种简单（只有两个双向KL 损失）但非常有效的一致性训练方法。据我们所知，这是第一个从不同角度、统一训练目标对顺序推荐任务深入研究一致性训练效果的工作。
提出的一致性训练方法可以轻松扩展到其他不一致场景和任务，例如数据增强和点击率预测。
对四个离线数据集的广泛实验表明，我们提出的 CT4Rec 相对于基于对比学习的 SOTA 模型的有效性，具有更好的性能和更快的收敛时间。在线 A/B 测试还显示出相对于强集成模型的显着改进。

3 THE CT4REC MODEL

在这里插入图片描述

3.1 Backbone Model

文章将方法应用在SASRec模型上。

相似度分布：
$\mathcal P(s_{u,t};w) = \frac{\exp(s_{u,t}v^+_{t+1})}{\exp(s_{u,t}v^+_{t+1}) +\sum_{v^-_{t+1}\in \mathcal V} \exp(s_{u,t}v^-_{t+1})} \tag 1$

$\mathcal L_{basic}(s_{u,t}; w) = -\log \mathcal P(s_{u,t}; w) \tag2$

$+$ 表示正样本； $-$ 表示负样本； $\mathcal P$ 表示相似度分布

3.2 Consistency Training

由于深度神经网络模型广泛存在过拟合问题，包括 dropout 在内的正则化方法被广泛用于缓解这一问题。通常，dropout可以通过随机去除整个深度神经网络中一定比例的单元来减少过拟合和协同适应。此外，dropout 可以被视为一种生成和组合指数子模型的方法，它总是能有效地增强模型性能。考虑到上述优点和dropout的随机性，作者提出了基于 dropout 的CT4Rec来规范模型的输出空间和表示空间。受到最近关于 dropout 研究的启发，作者从减少模型不一致以及训练和测试之间的差距的角度增强了用户表示。

具体来说，使用不同的 dropout 进行两次转发，并学习每个用户的这两个表示之间的一致性，即每个用户交互序列 $s_u$ 通过前向网络两次，并获得两个表示 $s^{d_1}_{u,t} 和 s^{d_2}_{u,t}$ 。由于 dropout 会随机删除模型中的单元，因此这两个表示实际上是从同一模型的两个子模型生成的

**Regularized Dropout Loss (RD). ** 首先，应用正则化的dropout损失来约束子模型的输出空间免受dropout的影响。由公式（1）我们可以得到2个相似分布。然后，引入双向KL-divergence损失来正则化这两个分布：
$\mathcal L_{RD} (s_{u,t};w) = \frac 12(\mathcal D_{KL}(\mathcal P(s_{u,t}^{d_2};w)\Vert\mathcal P(s_{u,t}^{d_1};w))+\mathcal D_{KL}(\mathcal P(s_{u,t}^{d_1};w)\Vert\mathcal P(s_{u,t}^{d_2};w))) \tag 3$
Distributed Regularization Loss (DR). 为了更好地规范表示空间，我们提出了一种分布式正则化方法，其中每个用户通过其与其他用户的相关性来表示，而不是直接利用用户表示进行一致性正则化。如图2（b），相似度分布：
$\mathcal P_u(s_{u_1}^{d_j};w) = softmax(sim(s_{u_1}^{d_j},s_{u_2}^{d_j}),...,sim(s_{u_1}^{d_j},s_{u_n}^{d_j})) \tag 4$
然后，应用双向 KL 散度损失来正则化两个分布：
$\mathcal L_{DR} (s_{u};w) = \frac 12(\mathcal D_{KL}(\mathcal P_u(s_{u}^{d_1};w)\Vert\mathcal P_u(s_{u}^{d_2};w))+\mathcal D_{KL}(\mathcal P_u(s_{u}^{d_2};w)\Vert\mathcal P_u(s_{u}^{d_1};w))) \tag 5$
Final Objective. 特定任务的损失和最终的训练目标如下:
$\mathcal L_{basic}(s_{u,t};w) = -\frac 12(log\mathcal P(s_{u,t}^{d_1};w)+log\mathcal P(s_{u,t}^{d_2};w) \tag 6$

$\mathcal L_{final} = \mathcal L_{basic}+\alpha\mathcal L_{RD}+\beta\mathcal L_{DR}$

4 EXPERIMENTS

数据集： Amazon（Beauty、Sports）、Yelp、WeChat

Baselines： GRU4Rec、SASRec、TiSASRec、BERT4Rec、CL4Rec、CLRec、StackRec

Offline Evaluation： HR@k、NDCG@k

Online Evaluation： CTR（点击率）、ACN（人均点击次数）

在这里插入图片描述

CT4Rec可以在不增加在线计算成本的情况下显着提高在线性能，这对于在线服务来说是一个明显的优势，特别是考虑到机器成本。

5 ANALYSIS

5.1 Ablation Study

在这里插入图片描述

RD Objective. （regularized dropout (RD)）**DR Objective. ** （DR Objective.）如图a、b所示，作者设计的DR和RD对性能的提升贡献很大。作者还采用了之前研究中的两种典型的无监督策略来规范用户表示，包括余弦相似度和 L2 ，如图所示这两种方法并没有给主干方法带来有意义的改进。