趁热打铁接着上篇继续干,上一篇提到在对比学习中图的增强只起次要作用。优化CL损失可以得到更均匀的表示分布,通过在表示中加入有向随机噪声,进行不同的数据增强和对比,提出的方法显著提高了推荐能力。
一、前言
这一篇是上一篇的延续,更进一步简化,大致差不多,细节做了更好的改进
我们提出了一种非常简单的图对比学习方法(XSimGCL)作为推荐,该方法摒弃了无效的图增强,而是使用一种简单而有效的基于噪声的嵌入增强来为CL创建视图。
1、介绍
由于CL从未标记的原始数据中学习一般特征的能力是解决数据稀疏性问题的一颗子弹,因此它也推动了推荐的前沿。它主要包括两个步骤:首先用结构扰动(例如,边缘/节点以一定比率丢失)增强原始用户项二部图,然后在联合学习框架下最大化从不同图形增强中学习的表示的一致性
问题1:基于CL的推荐模型真的需要图形增强吗?
联合优化的对比度损失InfoNCE才是真正重要的,而比图形增强更重要。优化这种对比度损失总是会导致更均匀地分布用户/项目表示,而不考虑图形的增强,这会隐式地减轻普遍流行的偏见,并促进长尾项目。
问题2:是否有更有效和高效的增强方法?
SimGCL它放弃了无效的图形增强,而是向学习的表示添加统一的噪声,以实现更高效的表示级别数据增强。这种基于噪声的增强可以直接将嵌入空间正则化为更均匀的表示分布。同时,通过调整噪声的大小,SimGCL可以平滑地调整表示的一致性。得益于这些特点,SimGCL在推荐准确性和培训效率方面均优于基于图形增强的同类产品。
可以得出两个结论:
(1)图形增强确实有效,但没有预期的有效;性能提升的很大一部分来自对比度损失InfoNCE,这可以解释为什么在即使是非常稀疏的图形增强也能提供信息;
(2) 并非所有的图形增强都有积极的影响;要挑选出有用的,需要经过长时间的反复试验。可能的原因是某些图形增强会严重扭曲原始图形。例如,节点丢失很可能会丢失关键节点(例如hub)及其关联边,从而将相关子图分解为不连续的片段。
这样的图扩充与原始图几乎没有可学习的不变性,因此鼓励它们之间的一致性是不合理的。
2、提出SimGCL的不足
核心部分来了,将右侧对比直接合并到左侧,使结构更简单!!!
SimGCL的繁琐架构使其不够完美。除了推荐任务的向前/向后传递外,还需要对小批量对比任务进行两次额外的向前/反向传递
这项工作中,提出了一种非常简单的图形对比学习方法(XSimGCL&