康奈尔大学:LLM结合理解和生成的反馈学习

在这里插入图片描述

📖标题:COGEN: Learning from Feedback with Coupled Comprehension and Generation
🌐来源:arXiv, 2408.15992

摘要

🔸具有语言理解和生成能力的系统可以从两者之间的紧密联系中受益。这项工作研究了耦合理解和生成,重点是从与用户的交互中持续学习。我们提出了将这两种功能紧密集成到学习和推理中的技术。我们将我们的研究置于两人参考游戏中,并在从交互反馈信号中学习的同时,为与人类用户数千个交互部署各种模型。
🔸我们展示了随着时间的推移性能的显着改进,理解生成耦合导致绝对术语的性能提升高达 26%,与非耦合系统相比,准确率提高了 17%。我们的分析还表明耦合对系统语言有显着影响,使其更像人类。

🛎️文章简介

🔸研究问题:在持续学习环境中,理解和生成过程的耦合对长期性能和语言动态有何影响?
🔸主要贡献:论文设计了一种耦合理解和生成的方法,并通过实验验证了这种方法在提高模型性能、样本效率和语言相似性方面的有效性。

📝重点思路

🔺相关工作

🔸论文的联合推理策略在技术上基于理性言语行为框架的近似,将语用推理框架为听者模型和说话者模型之间的递归过程。
🔸与人类用户的交互中持续学习,已经在指令生成、问答和临时适应中被广泛研究,其中强化学习框架(RLHF)依赖于外部注释。
🔸游戏场景已作为简单的交互设计原型,广泛用于认知研究中,如七巧板图像。

🔺论文方案

🔸设计了一个七巧板游戏交互场景,其中模型可以担任听者(理解)和说话者(生成)的角色,并在与人类伙伴交互时接收反馈。
🔸通过几种机制耦合理解和生成,并在持续学习设置中观察这种耦合对长期性能和语言的影响。
🔸采用了持续学习方法,将反馈映射为奖励,将学习视为上下文博弈问题,并使用相对简单的策略梯度算法(如REINFORCE)进行优化。
🔸在训练和推理过程中耦合理解和生成,并使用单一模型来执行这两个任务。
🔸通过数据共享机制,将人类语言引入生成模型的训练数据中,以避免语言偏离人类语言。

🔎分析总结

🔸所有系统在理解和生成性能上都有显著提升,特别是耦合推理的系统在第一轮就表现出色。
🔸耦合显著提高了学习的样本效率,完整系统在第二轮的表现已经优于基线系统在研究结束时的表现。
🔸语言分析显示,耦合避免了偏离人类语言的问题,反而随着时间的推移更接近人类语言。
🔸数据共享对训练集大小的影响显示,耦合与数据共享导致FULL和NO-JI系统的数据点数量显著增加。

💡个人观点

论文的核心是耦合理解和生成过程,设计了一种在持续学习环境中提高模型性能和语言相似性的方法。

附录

在这里插入图片描述

  • 26
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值