清华：LLM解码策略实现双工对话

大模型任我行

于 2024-09-29 10:00:00 发布

阅读量411

点赞数 17

分类专栏：大模型-推理优化文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142596608

版权

大模型-推理优化专栏收录该内容

15 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Enabling Real-Time Conversations with Minimal Training Costs
🌐来源：arXiv, 2409.11727

摘要

🔸大型语言模型（LLM）已经证明了通过对话交互提高人类效率的能力。传统的LLM驱动的对话系统基于回合制范式运行，在响应生成过程中排除了实时交互的可能性。为了解决这一局限性，研究人员提出了双工模型。这些模型可以动态地适应用户输入，促进实时交互反馈。然而，这些方法通常需要大量的计算资源来获得这种能力。
🔸为了减少开销，本文提出了一种新的双工解码方法，该方法增强了LLM的双工能力，只需要最少的额外训练。具体来说，我们的方法对对话中的查询和响应进行并行解码，有效地实现了信道分复用解码策略。
🔸实验结果表明，我们提出的方法以最小的训练成本显著提高了用户与人工智能交互的自然度和人类相似性。

🛎️文章简介

🔸研究问题：如何在最小化训练成本的前提下，实现模型与用户之间的实时对话，并增强对话的自然性和人性化？
🔸主要贡献：论文提出了一种名为DUO的新方法，通过双通道处理输入和输出，实现了低成本的实时对话能力，显著提升了用户与AI交互的自然性和人性化。

📝重点思路

🔺相关工作

🔸传统的LLM由于其单通道架构而面临固有的约束，限制了顺序输入处理或输出生成。
🔸建立在此基础上的聊天系统围绕基于回合的交互范式，在实时对话方面同样表现出显着的局限性。
🔸有研究提出了一种采用时分复用策略的新方法，输入和输出以时间切片格式拆分和混合，从而实现文本段的伪同时处理。

🔺论文方案

🔸DUO方法：通过循环处理输入和输出，在每个周期中，输出通道以自回归方式生成新的令牌，而输入通道则预填充键值缓存并预测下一个令牌。
🔸通道切换机制：DUO使用Flex-Attention实现高效的通道切换，所有操作通过键值缓存的管理完成，不增加前向传播的次数。
🔸状态令牌使用：为了决定何时以及是否响应新的输入，模型使用状态令牌来指示用户查询的状态，以完成每个处理周期中的查询。
🔸DUO对比MiniCPM-Duplex：后者按顺序处理输入和生成输出，而DUO通过优化解码策略同时处理输入和输出，保留了原始模型的能力。

🔎分析总结

🔸实时交互反馈：实验表明，DUO方法使模型能够实现实时交互反馈，包括非唤醒交互和中断交互。
🔸自然性和人性化提升：通过人类评估和标准基准测试，DUO显著提升了用户与AI交互的自然性和人性化。
🔸低训练成本：DUO方法在显著提升交互质量的同时，仅需要最小的训练成本。
🔸多模态测试的局限性：尽管DUO在语言模型上表现出色，但其多模态测试的范围有限，未来研究将扩展到多模态设置。