迪肯大学：情景记忆和强化学习优化LLM提示

最新推荐文章于 2025-03-26 17:31:49 发布

大模型任我行

最新推荐文章于 2025-03-26 17:31:49 发布

阅读量733

点赞数 27

分类专栏：大模型-推理优化大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141896944

版权

在这里插入图片描述

📖标题：Large Language Model Prompting With Episodic Memory
🌐来源：arXiv, 2408.07465

摘要

🔸优化提示对于提高大型语言模型（LLMs）在自然语言处理（NLP）任务中的表现至关重要，特别是在少量样本学习的情况下，其中训练示例直接并入提示中。尽管越来越多的人对使用少量示例优化提示感兴趣，但现有的提示优化方法通常需要大量资源或表现不佳。
🔸在这项工作中，我们提出了一种新颖的提示优化技术——具有情节记忆的提示（POEM），它简单高效，具有强大的泛化能力。我们将提示优化视为强化学习（RL）挑战，并使用情节记忆来归档输入数据的组合、少量示例的排列以及训练期间观察到的奖励。在测试阶段，我们通过选择在情节记忆中与前k个最相似的训练示例中获得最高总奖励的序列来为每个测试查询优化示例序列。
🔸我们的结果表明，POEM在各种文本分类任务中比最近的技术（如TEMPERA和RLPrompt）表现更好，性能提高了5.3%以上。此外，我们的方法适用于更广泛的语言理解任务，并始终优于传统的启发式方法来排序示例。

🛎️文章简介

🔸研究问题：在少样本

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。