迪肯大学:情景记忆和强化学习优化LLM提示

在这里插入图片描述

📖标题:Large Language Model Prompting With Episodic Memory
🌐来源:arXiv, 2408.07465

摘要

🔸优化提示对于提高大型语言模型(LLMs)在自然语言处理(NLP)任务中的表现至关重要,特别是在少量样本学习的情况下,其中训练示例直接并入提示中。尽管越来越多的人对使用少量示例优化提示感兴趣,但现有的提示优化方法通常需要大量资源或表现不佳。
🔸在这项工作中,我们提出了一种新颖的提示优化技术——具有情节记忆的提示(POEM),它简单高效,具有强大的泛化能力。我们将提示优化视为强化学习(RL)挑战,并使用情节记忆来归档输入数据的组合、少量示例的排列以及训练期间观察到的奖励。在测试阶段,我们通过选择在情节记忆中与前k个最相似的训练示例中获得最高总奖励的序列来为每个测试查询优化示例序列。
🔸我们的结果表明,POEM在各种文本分类任务中比最近的技术(如TEMPERA和RLPrompt)表现更好,性能提高了5.3%以上。此外,我们的方法适用于更广泛的语言理解任务,并始终优于传统的启发式方法来排序示例。

🛎️文章简介

🔸研究问题:在少样本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值