LLMs in RS

LLM in RS

一:23-TALLRec: An Effective and Efficient Tuning Framework to Align Large Language
Model with Recommendation
二:[23-Arxiv] How to Index Item IDs for Recommendation Foundation Models

提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档


一:TALLRec: An Effective and Efficient Tuning Framework to Align Large Language Model with Recommendation

创新的地方:表述是找到LLMS和RS的匹配方法。实际用的是instruction tuning+rec tuning(这个是大的创新点)+LoRA。并证明了模型具有很强的泛化能力(在只对电影数据进行训练后,所获得的模型在图书数据上表现出了很强的性能)

动机

1:LLMs具有丰富的知识和成分生成能力,但在RS领域的性能表现很差,不比随机猜测的表现好。
2:只使用上下文学习的方法,ChatGPT类的LLMs要么拒绝回答,要么相信用户会喜欢这个新item,导致性能表现不佳。

结构

在这里插入图述 Figure:TALLRec的整体结构,主要是提出了一个rec-tuning进行新item的判断,用进行轻量级结构微调的output再经过Rec-tuning进行最后的预测。

结论

1:在64个样本上进行训练(即在64-shot训练设置中),TALLRec比基于llm的基线性能表现要好很多。
2:rec-tuning对模型性能的影响是很大的。但是instruction-tuning+rec-tuning的性能表现最好。
3:框架训练的模型在不同领域也具有很强的泛化能力,TALLRec可以无缝地合并来自不同域的数据,以提高其性能。表明模型学习任务本身,而不是像传统推荐者那样拟合数据。

How to Index Item IDs for Recommendation Foundation Models

动机

1:由于文本的长度相当长,几乎不能期望LLM在决定要推荐的物品时生成完整和准确的物品描述,避免在决定要推荐的物品时生成过长的文本或虚构的推荐,为推荐基础模型创建LLM兼容的物品ID以唯一标识每个物品是至关重要的
2:①:Random Indexing (RID):意外的重叠可能会在物品之间建立任意的关系,引入不希望的偏见到模型训练中。由于这些重叠源自索引结构,无论模型如何从数据中学习,都无法消除它们。因此,RID被认为是一种不理想的方法。
②:Title Indexing (TID):需要记住并生成冗长的物品标题。此外,标题中的某些词语或表达可能与物品的实际内容无关,而且非常不同的物品可能会在它们的标题中共享重叠的标记,因此从标题中派生的语义可能会引入强烈的语言偏见。
③:Independent Indexing (IID): [为每个item创建一个需要学习的独立的OOV额外token]: 由于在创建项目id时考虑了所有项目之间的相互独立,因此它的推荐性能仍然有限。

方法

1:Sequential Indexing (SID): 用户连续交互的项目被分配连续的数字索引,反映它们的共现.

在这里插入图片描述
①:Time-Sensitive Ordering (TSO): 根据用户与平台的初始交互,用户在原始数据集中按时间顺序排序。
②:Random Ordering (RO)
③:Short-to-Long Ordering (S2LO): 用户根据交互的数量进行组织,按从最少到最多交互的升序排列。
④:Long-to-Short Ordering (L2SO): 用户按从最多交互到最少交互的降序排序。

2:Collaborative Indexing (CID): 将协作信息集成到物品索引中的一种初步方法。

①:Spectral Clustering based on Spectral Matrix Factorization (基于光谱矩阵分解的光谱聚类): 每个物品作为一个节点,两个物品之间的边表示它们的共现(即,两个物品在用户的互动序列中一起出现),边的权重表示共现的频率(即,两个物品在用户互动序列中一起出现的次数)。与图形对应的邻接矩阵(图2(b))表示物品之间的共现频率相似性,与图形对应的拉普拉斯矩阵(图2©)可以进行因子分解以启用光谱聚类
在这里插入图片描述
②: Item Indexing based on the Spectral Clustering Tree (基于光谱聚类树的物品索引):以𝑁 = 4和𝑘 = 20为例,这意味着光谱聚类的每个迭代将物品分成4个簇,并且该过程递归应用于每个簇,直到簇的大小小于或等于20。每个非叶节点(大黄色节点)代表一个簇,而所有物品都作为叶节点(小蓝色节点)出现在最终簇的下方。
在这里插入图片描述

3:Semantic (Content-based) Indexing:利用物品元数据为物品构造id。

在这里插入图片描述
项目的类别形成了一个层次结构,每个非叶节点(黄色大节点)代表一个类别,每个叶节点(蓝色小节点)代表一个项目。每个非叶节点都被分配一个独立的额外标记,每个叶节点在其父节点下接收一个唯一的额外标记。要创建项目索引,非叶节点和叶节点的标记将沿着从根到叶的路径连接起来。

4: Hybrid Indexing: 将以上的索引方法进行结合,利用不同索引技术的优势来产生更好的索引。(i.e. SID+IID, CID+IID, SemID+IID, SemID+CID,)

结果

1:总体:

在这里插入图片描述

2:顺序索引设置不同:

在这里插入图片描述
性能表现:ime-Sensitive > {Long-to-Short, Short-to-Long} > Random.

3:Different Settings of Collaborative Indexing

在这里插入图片描述

在这里插入图片描述
在这些不同的设置中,几乎所有的CID结果都优于基线。
在这里插入图片描述

4:When will Semantic Indexing Work

在这里插入图片描述类别越接近层次结构,模型的性能就越好。这可能是因为一个按层次结构组织的类别列表有助于减少生成过程中的搜索空间。

5:What Types of Hybrid Indexing Work

Table 4

结论

这篇论文通过复制P5模型,考察了各种基于索引的方法。考察了三种简单的索引方法:随机索引(RID)、标题索引(TID)和独立索引(IID),并强调了它们的局限性。这突显了为基础推荐模型选择适当的索引方法的重要性,因为它对模型性能有很大影响。然后,考察了四种简单但有效的索引方法:顺序索引(SID)、协同索引(CID)、语义索引(SemID)和混合索引(HID)。在Amazon Sports、Amazon Beauty和Yelp数据集上的实验结果表明它们具有强大的性能。这四种有效的索引方法满足了本文介绍的两个标准:(1)保持合适的ID长度,以及(2)将有用的先前信息整合到项目ID构建中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值