LLM in RS (Conversational Recommendation)

最新推荐文章于 2024-10-17 11:21:39 发布

瞒。

最新推荐文章于 2024-10-17 11:21:39 发布

阅读量1.6k

点赞数 19

文章标签： python 语言模型

本文链接：https://blog.csdn.net/weixin_44965236/article/details/132645955

版权

本文探讨了在大型语言模型时代，如何利用零-shot方法将LLMs转化为对话式推荐系统，解决了重复物品问题，重新思考了评估方法，揭示了LLMs主要依赖内容/上下文知识而非协作知识。此外，文章还介绍了RecLLM的全量调优方法及其在推荐流程中的应用。

摘要由CSDN通过智能技术生成

LLM in RS (Conversational Recommendation)

一：23-Recommender Systems in the Era of Large Language Models (LLMs)
二：23-Large Language Models as Zero-Shot Conversational Recommenders
三：23-Leveraging Large Language Models in Conversational Recommender Systems
四：23-Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

LLM in RS (Conversational Recommendation)
一：Recommender Systems in the Era of Large Language Models (LLMs)
二：Large Language Models as Zero-Shot Conversational Recommenders
- 结论
- 总结
三：Leveraging Large Language Models in Conversational Recommender Systems
- 总结
四：Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models
- 结论
- 总结
二、使用步骤
- 1.引入库
- 2.读入数据
总结

一：Recommender Systems in the Era of Large Language Models (LLMs)

LLM in RS 的流程图

二：Large Language Models as Zero-Shot Conversational Recommenders

主要是运用了一个新的数据集，另外就是在以前的标准CRS评估中解决了一个重复的物品捷径（repeated item shortcut），这可能会导致关于模型设计的不可靠的结论。不过这篇论文的实验分析角度值得考虑。
存在的重复item存在于先前的评估测试样本中作为一个真实item。这允许创建一个简单的基线（例如，从当前对话历史中复制提到的项目），优于大多数现有模型，导致关于当前CRS推荐能力的虚假结论。

引入了一个简单的提示策略来定义LLM的任务描述𝑇、格式需求𝐹和会话上下文𝑆，记为F，然后用处理器Φ将生成结果后处理到排序项目列表中。

结论

1：证明了LLMs主要使用的是先进的 content/context knowledge，而不是传统的 collaborative knowledge（即主要起作用的是用多轮的对话信息，传统的喜欢A的也喜欢B这种协同信息在LLMs中起到的作用并不大）。
2：CRS数据集本质上包含了高水平的内容/上下文信息，这使得CRS任务比传统的推荐任务更适合于LLM。
3： llm存在流行偏差（依旧会推荐一些比较流行的item）和对地理区域的敏感性等限制。
LLMs的频率（GPT-4）的散点图产生的建议和地面真实项目。
按国家划分的地面真实项目数量，按国家对应的recall@1

总结

1：这篇文章的大创新点是去除原有数据中的重复项，这种方法不仅可以证明LLM的有效性，同样也可以在评估传统的CRS模型进行评估。
2：分析的角度很多，①证明了LLMs 更依赖于content/context knowledge而非collaborative knowledge；②LLMs评测时出现的幻觉情况；③基于GPT的LLMs比现存在的CRS有更好的content/context knowledge；④：LLM推荐在CRS中存在流行偏差；⑤：LLMs的推荐行难呢过更地理位置有关。这些角度以后做消融实验都可以进行考虑。

三：Leveraging Large Language Models in Conversational Recommender Systems

主要是提供了一个使用LLM构建端到端大规模CRS的路线图：RecLLM；是用一种Full-Tuning的方法进行实现的。

(1)对话管理模块使用LLM与用户进行对话、跟踪上下文和进行系统调用，例如向推荐引擎提交请求，所有这些都作为一个统一的语言建模任务。
(2)在基于LLM的CRS中，在大型item语料库上提出了各种易于处理的解决方案。
(3)Ranker模块使用LLM将从对话上下文中提取的首选项匹配到项目元数据，并生成显示给用户的建议。LLM还共同为其决策提供可以呈现给用户的解释。
(4)系统LLM使用可解释的自然语言用户配置文件，以调节会话级上下文并提高个性化。
(5)一个可控的基于LLM的用户模拟器可以插入到CRS中，以生成用于调优系统模块的合成对话。
RecLLM的整体结构图

总结

这一篇主要是用了full-tuning的方法进行微调。整个推荐的流程是比较新颖的。但是没有开源代码。

四：Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

提出了一种新的评估方法以及评估了LLM的可解释性。证明模拟用户代替可代替真实用户。用包括主观和客观的方式进行评估。

用prompt给LLM和用户模拟器进行指令约束，对话模拟器分为free-form chit-chat和Attribute-based question answering两种方式进行性能评估，客观角度用recall进行评估，主管角度用说服力（评估解释的质量，目的是评估是否可以说服用户接受建议）进行证明。
在这里插入图片描述

结论

由于现有评估协议过于强调基于会话上下文的真实注释的拟合，导致一般CHatGPT的性能表现并不好。因此提出了一种利用基于llm的用户模拟器的交互式评估方法。
(1) ChatGPT在功能方面，在准确性和可解释性方面都优于目前领先的CRSs；
(2) 现有的crs通过交互中准确性有所提高，但在可解释性方面表现较差；
(3) 不同的最优交互策略在不同的场景中有所不同。还证明了评估方法的有效性和可靠性（基于LLM的用户模拟器生成代替人类生成）。

总结

二、使用步骤

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

瞒。

关注

19
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫