阿里：通过参数插入实现LLM生成校准

最新推荐文章于 2025-05-04 21:26:46 发布

大模型任我行

最新推荐文章于 2025-05-04 21:26:46 发布

阅读量860

点赞数 22

分类专栏：大模型-推理优化文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141813276

版权

大模型-推理优化专栏收录该内容

120 篇文章

订阅专栏

在这里插入图片描述

📖标题：Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model
🌐来源：arXiv, 2408.10764

摘要

这篇文章提出了一种名为Otter的方法，通过向Transformer架构中插入额外的参数，来预测校准信号以及原始的LLM输出，从而解决了基于Transformer的大型语言模型（LLMs）存在的生成不安全响应、不可靠推理等局限性。相较于现有的推理干预方法，该方法无需额外的模型微调，因此节省了大量的时间和空间开销。实验表明，Otter在多个复杂任务上均达到了最先进的性能，并且可以与现有的推理引擎无缝集成，只需要进行一行代码的修改，同时插入参数后仍然可以访问原始模型响应。该方法的代码已经在https://github.com/chenhan97/Otter上公开发布。

🛎️文章简介

🔸研究问题：大语言模型（LLM）进行推理时，如何在不破坏原始模型输出的情况下，保持推理效率的同时进行生成干预。
🔸主要贡献：论文提出了一种名为Otter的方法，通过在原始模型中插入新的可训练参数，同时实现了信号校准和生成输出，显著减少了空间和时间开销，保持了与现有推理干预方法相当的性能，还能访问原始模型响应。

📝重点思路

🔺相关工作

🔸LLM推理干预：现有的推理干预方法采用微调的辅助模型来指导LLM的生成，但额外的模型增加空间需求、多次解码迭代增加时间开销。
🔸LLM参数高效微调：随着语言模型的规模不断增大，仅对部分参数进行微调以达到全参微调的效果，包括引入少量可训练参数（LoRA等）、提示调优（p-tuning等）和适配器调优（K-Adaptor等）。

🔺论文方案

🔸思想：在Transformer架构的前馈网络（FFN）和多头注意力（MHA）层中插入新的可训练参数，来预测校准信号并伴随生成语言模型输出。
🔸实现：对于Transformer的第i个块，将原始隐藏状态h_i扩展为h_i=[h_i,h’_i]，从而使得可以根据最后一层h’_n预测推理干预信号。

🔎分析总结

🔸Otter在三个高需求的任务（生成解毒、偏好对齐和推理加速）上，相比传统的推理干预方法，节省了大量的额外空间和时间开销，同时获得了与最先进的推理干预方法相当的性能。
🔸Otter在推理速度上显著优于Vicuna-draft和Medusa，实现了比基础模型高达172%的速度提升，并且在平均接受长度和加速方面也表现出色。
🔸以往的研究认为FFN层负责保存知识应优先扩展，但实验发现MHA组件比FFN组件效果要好的多，这个相反的结果值得思考。