摘要
叙事驱动推荐(Narrative-driven recommendations,NDR)提出了一种信息访问问题,即用户通过详细描述其偏好和上下文来请求推荐,例如,旅行者在请求推荐兴趣点的同时描述其喜欢/不喜欢和旅行情况。
经典的用户-项目交互数据集包含丰富的文本数据,例如,评论,通常描述用户偏好和上下文-这可以用于引导NDR模型的训练。
在这项工作中,我们探索使用大型语言模型(LLM)进行数据增强来训练NDR模型。我们使用LLM从用户-项目交互中创作合成叙事查询,并在合成查询和用户-项目交互数据上训练NDR检索模型。
介绍
文章中用175B-GPT3作为基本模型,根据𝐷𝑢编写一个合成的叙述性查询 q𝑢 (下图),quary是存在噪声且不能代表全体用户的,所以只在全部的交互信息中保留了一部分。基于 LM 的预训练检索模型(110M参数)进行微调,以便对合成查询和过滤后的评论进行检索。
在Mint中使用的提示格式,用于通过大型语言模型的用户-项目交互生成合成叙述查询。
作者这里提出一个问题,就是听起来评论这类的数据很多、但是和实际的user-items交互的数量相比较还是少了很多的。
实验部分
下游任务:对于一个叙述性推荐任务,在已有的数据集上给出一个排名
先是把协同的交互数据与评论数据 ,通过GPT生成一个长文本,然后将这个长文本和评论数据打包再喂给一个检索模型。
1.其中将交互类文本作为prompt给GPT
2.过滤阶段,保留部分1得到的数据,将1中得到的query,用了一个3B的模型对于查询可能性给分,得分高的查询才能保留。
3.Training Retrieval Models
在生成的合成数据集上训练用于NDR的双编码器和交叉编码器模型(bi-encoder and cross-
encoder models)-搜索任务中常用的模型。这里用的是两个类似bert的110M模型训练
个人思考
这个工作最有特点的部分是将CF中的信息引入到了推荐中,但是最后的输出是用的一个检索的模型,不是特别理解,但是本质还是向量相似度之类的东西,使用的Yelp数据集去做一个信息的提取与交互数据的学习
缺点:目前没有代码,只用了三个模版去匹配大部分文本,缺少了很多的本身的信息
重要参考文献
数据增强相关 、少量数据or冷启动场景的文章Lei Chen, Le Wu, Kun Zhang, Richang Hong, Defu Lian, Zhiqiang Zhang, JunZhou, and Meng Wang. 2023. Improving Recommendation Fairness via DataAugmentation (这玩意是提升公平性的,不确定实际上是不是无)Yuxin Ying, Fuzhen Zhuang, Yongchun Zhu, Deqing Wang, and Hongwei Zheng.2023. CAMUS: Attribute-Aware Counterfactual Augmentation for Minority Usersin Recommendation. (反事实增强)Dong-Kyu Chae, Jihoo Kim, Duen Horng Chau, and Sang-Wook Kim. 2020. ARCF: Augmenting Virtual Users and Items in Collaborative Filtering for AddressingCold-Start Problems (增加虚拟用户增强数据CF框架下)Federico López, Martin Scholz, Jessica Yung, Marie Pellat, Michael Strube, andLucas Dixon. 2021. Augmenting the user-item graph with textual similaritymodels.(文本相似度增强)Qinyong Wang, Hongzhi Yin, Hao Wang, Quoc Viet Hung Nguyen, Zi Huang,and Lizhen Cui. 2019. Enhancing Collaborative Filtering with Generative Augmentation.(生成增强协同过滤)