康奈尔大学：LLM结合理解和生成的反馈学习_cogen: learning from feedback with coupled compreh-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142063266

在这里插入图片描述

📖标题：COGEN: Learning from Feedback with Coupled Comprehension and Generation
🌐来源：arXiv, 2408.15992

摘要

🔸具有语言理解和生成能力的系统可以从两者之间的紧密联系中受益。这项工作研究了耦合理解和生成，重点是从与用户的交互中持续学习。我们提出了将这两种功能紧密集成到学习和推理中的技术。我们将我们的研究置于两人参考游戏中，并在从交互反馈信号中学习的同时，为与人类用户数千个交互部署各种模型。
🔸我们展示了随着时间的推移性能的显着改进，理解生成耦合导致绝对术语的性能提升高达 26%，与非耦合系统相比，准确率提高了 17%。我们的分析还表明耦合对系统语言有显着影响，使其更像人类。

🛎️文章简介

🔸研究问题：在持续学习环境中，理解和生成过程的耦合对长期性能和语言动态有何影响？
🔸主要贡献：论文设计了一种耦合理解和生成的方法，并通过实验验证了这种方法在提高模型性能、样本效率和语言相似性方面的有效性。

📝重点思路

🔺相关工作

🔸论文的联合推理策略在技术上基于理性言语行为框架的近似，将语用推理框架为听者模型和说话者模型之间的递归过程。
🔸与人类用户的交互中持续学习，已经在指令生成、问答和临时适应中被广泛研究，其中强化学习框架（RLHF）依赖于外部注释。
🔸游戏场景已作为简单的交互设计原型，广泛用于认知研究中，如七巧板图像。

🔺论文方案

🔸设计了一个七巧板游戏交互场景，其中模型可以担任听者（理解）和说话者（生成）的角色，并在与人类伙伴交互时接收反馈。
🔸通过几种机制耦合理解和生成，并在持续学习设置中观察这种耦合对长期性能和语言的影响。
🔸采用了持续学习方法，将反馈映射为奖励，将学习视为上下文博弈问题，并使用相对简单的策略梯度算法（如REINFORCE）进行优化。
🔸在训练和推理过程中耦合理解和生成，并使用单一模型来执行这两个任务。
🔸通过数据共享机制，将人类语言引入生成模型的训练数据中，以避免语言偏离人类语言。

🔎分析总结

🔸所有系统在理解和生成性能上都有显著提升，特别是耦合推理的系统在第一轮就表现出色。
🔸耦合显著提高了学习的样本效率，完整系统在第二轮的表现已经优于基线系统在研究结束时的表现。
🔸语言分析显示，耦合避免了偏离人类语言的问题，反而随着时间的推移更接近人类语言。
🔸数据共享对训练集大小的影响显示，耦合与数据共享导致FULL和NO-JI系统的数据点数量显著增加。