论文阅读——Making recommender systems forget: Learning and unlearning for erasable recommendation

Making recommender systems forget: Learning and unlearning for erasable recommendation.

Knowl. Based Syst. 283: 111124 (2024) Yuyuan Li, Chaochao Chen, Xiaolin Zheng, Junlin Liu, Jun Wang:

目录

Making recommender systems forget: Learning and unlearning for erasable recommendation.

模型LASER属于精确Unlearning

摘要:

一、背景知识

二、贡献

三、LASER框架

1、LASER遵循划分-聚合框架的思想

2、划分阶段

3、聚集阶段

四、实验


模型LASER属于精确Unlearning

摘要:

        现在的法规要求数据驱动的系统,例如推荐系统,允许用户删除个人隐私数据。这促使机器学习模型中的关键数据不学习,从而使未被充分研究的机器Unlearning问题变得更加突出。尽管机器学习模型在现代推荐系统中得到了广泛的应用,但在这种背景下的Unlearning却缺乏关注。现有的Unlearning方法在保存跨用户和跨项目的协同信息方面存在不足。为了弥补这个缺陷,我们提出了LASER:一个模型不可知的可擦除推荐框架。LASER使用基于超图的嵌入将数据划分为不相交和平衡的分片。在这些分片上进行顺序训练,通过课程学习,LASER充分保留了协作信息,并改进了模型效用。为了解决顺序训练的低效性,我们集成了提前停止和参数操作。我们的理论分析和真实数据集实验验证了LASER的有效性。它可以实现高效的Unlearning,同时在保留模型效用方面优于最先进的模型。

一、背景知识

1、具有可擦除功能的推荐系统(RS)不仅维护了用户的隐私,还可以通过对脏数据的主动Unlearning来提高推荐性能。

2、从用户角度看,存在两种类型的UNlearning请求:

(1)用户级删除(E1),对所有用户进行Unlearning

(2)数据级删除(E2),对特定用户数据记录进行选择性Unlearning

3、SISA将原始数据集划分为多个互不相交的自己,并在每个子集上训练一个独立的模型,但SISA的划分破坏了所有数据之间的协作,限制了子模型仅在其分配的分片内使用协作关系。

4、RecEraser提出了一种推荐Unlearning方法,该方法遵循SISA的划分-聚合框架。RecEraser不是随机划分,而是将相似的数据组合成一个分片,并使用基于注意力的可学习聚合来增强模型的效用。然而,协作信息的保存仍然不足,特别是在RecEraser的聚合阶段。

5、Attribute unlearning(属性忘却学习)除了对推荐系统中的训练数据进行Unlearning,即推荐Unlearning外,还有另一类研究旨在Unlearning用户的潜在属性,称为属性Unlearning。潜在属性是指那些在模型训练过程中没有被使用,但可以通过潜在的攻击来推断的用户属性。因此,推荐Unlearning和属性Unlearning的Unlearning目标是不同的。

6、框架的提出:为了解决3、4的问题,主要关注用户级的Unlearning,提出了一个模型无关的Recommendation Unlearning框架LASER。在本文中,我们关注于精确推荐的Unlearning问题

二、贡献

1、提出了一种新颖的分区聚合框架( LASER )来实现可擦除的推荐。与现有的推荐Unlearning框架的并行训练不同,LASER采用顺序训练的方式来大量保留协同信息。

2、在分区阶段,我们使用平衡切分的方法来提高效率,并通过超图对隐藏的用户关系进行编码来优化内部切分协作,避免在整个数据集上训练一个预训练的模型。

3、在聚合阶段,我们采用由易到难的学习顺序,并提出协作内聚度来衡量学习难度。我们的理论分析表明,这种渐进的训练序列提高了模型的效用。我们还将提前停止机制引入到序列训练中,以进一步提高效率。

4、我们专注于用户级的Unlearning,并在两个真实世界的数据集上进行了广泛的实验,以证明LASER支持有效的Unlearning,并且在模型效用方面优于SOTA ( State-Of-The-Architecture )Unlearning框架。

三、LASER框架

1、LASER遵循划分-聚合框架的思想

通过在每个分片上依次训练模型来区别于先前的工作,以确保整个数据集的协作信息在数据层面上得以保存。图2描述了LASER框架的结构,包括划分和聚合两个阶段。在划分阶段,为了优化分片内的协同信息,我们使用协同嵌入通过超图捕获用户之间的隐藏关系。在聚合阶段,除了顺序训练外,我们利用课程学习以由易到难的顺序训练所有分片,这有助于增强模型效用。

2、划分阶段

 划分阶段的基本目的是通过将数据集D划分为互不相交的S个分片,但可能会破坏数据之间的协作性,因此,对用户进行聚类

(1)为了对稀疏评分进行编码并丰富协作信息,我们利用超图来捕获用户之间隐藏的协作,并在得到的协作嵌入上对用户进行聚类。

(2) 学习协同嵌入的步骤:( i )使用用户-项目交互矩阵R构建相应的超图;( ii )为每个用户执行随机游走以捕获他们之间的关系,从而将任务转换为序列嵌入;( iii )应用序列嵌入技术,例如. Word2Vec ,获得协同嵌入。

(3)学习到了协同嵌入,下一步就是根据用户的嵌入对用户进行聚类。为了实现平衡聚类,我们介绍了一种可以应用于大多数现有聚类算法的通用方法,包括但不限于k - means聚类、标签传播算法和高斯混合模型。我们在算法3中给出了平衡聚类方法。

3、聚集阶段

为了在整个数据集上训练模型,以保留数据层面的协作信息,我们在所有分片上依次训练模型,并优化训练顺序以进一步提高模型的实用性。训练顺序是在学习过程中确定的,而在Unlearning过程中保持不变。

(1)训练顺序:训练模型从简单的任务开始,并逐步向困难的任务发展,从而模仿人类课程中的学习顺序。为了度量协同信息量,我们提出了协同内聚度的概念,即计算分片内的内聚度。协同内聚度越高,推荐模型越容易在该分片上进行学习。

(2)未学习到的数据对模型参数的影响随着重新训练的顺序而减小。因此,为了进一步提高未学习效率,我们在分片数目较大时的聚合阶段引入了提前停止和参数操作。

 如图5所示,未学习的数据在2中被检测到。而不是从2到s重新训练所有后续的分片,我们提前在2 + r处停止重新训练,其中r是重新训练的长度,并直接操纵剩余的分片以获得最终的未学习模型。

四、实验

 1、评价指标

G1:Unlearning完全性。完全Unlearning目标数据是UNlearning最基本的目标之一,即完全消除对模型参数的影响,使其无法恢复。(用成员推理攻击进行评估

G2:UNlearning效率。由于大数据集下复杂推荐模型的计算开销较大,因此,Unlearning效率,尤其是时间效率,是Unlearning的一个重要目标。(计算运行时间进行评估

G3:模型效用。虽然Unlearning过多的数据必然会降低模型效用,但充分的Unlearning方法应能达到与真实模型相当的性能。(标准化折扣累积增益( NDCG )和命中率( HR )来评估推荐模型的性能)

2、数据集

我们在两个公开的数据集MovieLens 1M ( ML )和Amazon Digital Music ( AM )上对LASER进行了评估。ML和AM数据集被广泛用于评估CF算法。我们筛选出交互次数少于5的用户和物品。我们使用80 %的评分进行训练,10 %作为验证集用于调整超参数,其余用于测试。

3、在不同的推荐模型上测试了LASER框架

(1)DMF:深度矩阵分解

(2)NMF:神经矩阵分解

(3)Light GCN:轻图卷积网络

4、进行比较的Unlearning方法:

(1)Retrain

(2)SISA

(3)RecEraser

5、对划分阶段和聚合阶段进行消融实验

  • 25
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值