UltraRE: Enhancing RecEraser for Recommendation Unlearning via Error Decomposition. NeurIPS 2023
Yuyuan Li, Chaochao Chen, Yizhao Zhang, Weiming Liu, Lingjuan Lyu, Xiaolin Zheng, Dan Meng, Jun Wang:
目录
UltraRE: Enhancing RecEraser for Recommendation Unlearning via Error Decomposition. NeurIPS 2023
摘要:
随着人们对机器学习模型中隐私问题的日益关注,法规在强制企业开发非歧视机器学习系统的同时,也致力于授予个人被遗忘的权利,从而为机器Unlearning问题的研究推波助澜。我们的注意力集中在一个实际的Unlearning场景,即推荐Unlearning。由于目前最先进的框架RecEraser自然地实现了完全的Unlearning完备性,我们的目标是在模型效用和Unlearning效率方面提高它。在本文中,我们从基于系综的角度重新思考RecEraser,并关注它的三个潜在损失,即冗余、相关性和组合。在上述3个损失的理论指导下,我们提出了一个名为UltraRE的新框架,该框架简化并增强了RecEraser用于推荐任务的能力。具体来说,对于冗余损失,我们在聚类算法中加入传输权重,以优化协作和平衡之间的平衡,同时提高效率;对于相关性损失,我们确保子模型在各自的组数据上达到收敛;对于组合损失,我们在不影响组合估计量有效性的前提下,对其进行了简化。在三个真实数据集上的大量实验证明了UltraRE的有效性。
一、现状分析:
1、推荐系统严重依赖个人数据,推荐的性能对训练数据的质量高度敏感。
2、现有的推荐Unlearning方法遵循的是精确Unlearning方法,即主要在集成再训练框架将数据集划分为互不重叠的子块,为每个子块独立训练一个子模型,最终组合所有子模型。但该方法隔离了用户和项目之间的协作。
3、最新的RecEraser是将相似的数据分组在一起,将子模型与注意力网络相结合。
二、问题分析
1、现有的聚类算法在协作和平衡的要求之间表现不一致
2、RecEraser使用注意力网络是没有必要的
三、本文贡献
1、我们提出了一种新的集成再训练框架( UltraRE )来解决推荐Unlearning的问题。UltraRE增强了模型效用和Unlearning效率,同时实现了算法层面的Unlearning完备性。
2、在阶段I (非重叠划分)中,我们提出了一种最优平衡聚类算法,将离散的聚类问题转化为连续的优化过程,同时引入平衡约束,以同时实现平衡聚类和最小惯性。
3、在第三阶段(模型组合)中,我们对模型组合器的选择进行了实证研究,并在不影响模型效用的前提下简化了模型组合器的复杂度。
4、我们通过在三个真实数据集上的大量实验,从模型效用和Unlearning效率两个方面对所提出的框架进行了实证验证和演示。
局限性:集成再训练框架的一个共同限制是没有在具有大分片数的大规模数据集上进行实验。Unlearning的主要时间花费在阶段II上,这并不能充分说明集成再训练框架的高效性。
四、UltraRE
1、第一阶段:冗余损失
第一阶段的损失成分为冗余损失,指导集合系统增强碎片间的多样性。
提出了一种最优平衡聚类算法(OBC)。OBC在优化过程中加入了平衡约束。通过优化过程,得到了将输入样本x分配给聚类中心μ的传输权重。将输入样本分配到权重最大的簇中。
为了提高效率,我利用Sinkhorn散度来加速优化过程:对目标进行熵的正则化平滑。
2、第二阶段(相关性缺失)
在第二阶段,UltraRE在每个分片上独立地训练每一个子模型,这个阶段相关的损失分量是相关性损失,目标是增强子模型的性能。本文是假设分片数据与原始训练数据是独立同分布的,并确保所有子模型完全复制原始模型,从而在原始训练数据上达到收敛。即保证了子模型在各自的分片数据上达到收敛。
3、第三阶段(组合损失)
在第三阶段,UltraRE将子模型组合获得最终模型。不同的碎片可能对最终的模型有不同的贡献。因此,提出了基于模型的合路器。具体来说,该方法利用机器学习模型来确定下一个目标的组合权重。在模型组合过程中,子模型的参数是固定的。采用λ对β(组合的权重)参数化的L2正则化来防止过拟合。这种方法类似于在集成系统中使用元估计器,它们被用来减轻模型组合过程中的信息损失。本文通过应用LR(逻辑回归)优化确定组合权重。
五、实验
评估主要集中在G2(Unlearning效率)和G3 (模型效用),因为我们提出的方法( UltraRE )属于精确未Unlearning,自然地达到了G1 (Unlearning完备性)。UltraRE可以处理所有三种类型的未学习目标,即用户级、项目级和样本级。
1、数据集
i ) MovieLens 100k ( ML-100K ) 2:MovieLens数据集是[ 14、16 ]推荐研究中使用最广泛的数据集。ML - 100K包含10万个评级;ii ) MovieLens 1M ( ML-1M ):这是MovieLens数据集的稳定版本,包含100万个评分;iii )亚马逊数字音乐( ADM ) 3:根据亚马逊产品的类别,亚马逊数据集包含多个子数据集。
2、进行比较的模型:深度矩阵分解(DMF)和SOTA模型
进行比较的方法:Retrain、SISA、RecEraser
3、评价指标
(1)Unlearning 效率(G2)
使用运行时间来评估Unlearning的效率
(2)模型效用(G3)
使用两个常用的指标,即归一化折扣累计增益( NDCG )和命中率( HR ),来评估推荐模型的性能
4、消融实验
(1) 在第一阶段研究分割的影响
将OBC与平衡随机划分( BRD , SISA中使用)、平衡k - means ( BKM ,应用于RecEraser )和k - means ( KM )进行比较。虽然KM导致了聚类不平衡的问题,但它仍然可以作为评估划分性能的有价值的基线。
(2)在第三阶段,对组合效应进行消融研究
将基于逻辑回归( LR )的组合器(本文)与Average组合器( SISA中使用的AVG )和Attention组合器( RecEraser 中使用的ATT)进行了比较。
(3)为了说明UltraRE的稳健性,实证研究了分片数的影响,并与SOTA推荐去学习框架RecEraser进行了比较。