阿里:通过参数插入实现LLM生成校准

在这里插入图片描述

📖标题:Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model
🌐来源:arXiv, 2408.10764

摘要

这篇文章提出了一种名为Otter的方法,通过向Transformer架构中插入额外的参数,来预测校准信号以及原始的LLM输出,从而解决了基于Transformer的大型语言模型(LLMs)存在的生成不安全响应、不可靠推理等局限性。相较于现有的推理干预方法,该方法无需额外的模型微调,因此节省了大量的时间和空间开销。实验表明,Otter在多个复杂任务上均达到了最先进的性能,并且可以与现有的推理引擎无缝集成,只需要进行一行代码的修改,同时插入参数后仍然可以访问原始模型响应。该方法的代码已经在https://github.com/chenhan97/Otter上公开发布。

🛎️文章简介

🔸研究问题:大语言模型(LLM)进行推理时,如何在不破坏原始模型输出的情况下,保持推理效率的同时进行生成干预。
🔸主要贡献:论文提出了一种名为Otter的方法,通过在原始模型中插入新的可训练参数,同时实现了信号校准和生成输出,显著减少了空间和时间开销,保持了与现有推理干预方法相当的性能,还能访问原始模型响应。

📝重点思路

🔺相关工作

🔸LLM推理干预:现有的推理干预方法采用微调的辅助模型来指导LLM的生成,但额外的模型增加空间需求、多次解码迭代增加时间开销。
🔸LLM参数高效微调:随着语言模型的规模不断增大,仅对部分参数进行微调以达到全参微调的效果,包括引入少量可训练参数(LoRA等)、提示调优(p-tuning等)和适配器调优(K-Adaptor等)。

🔺论文方案

🔸思想:在Transformer架构的前馈网络(FFN)和多头注意力(MHA)层中插入新的可训练参数,来预测校准信号并伴随生成语言模型输出。
🔸实现:对于Transformer的第i个块,将原始隐藏状态h_i扩展为h_i=[h_i,h’_i],从而使得可以根据最后一层h’_n预测推理干预信号。

🔎分析总结

🔸Otter在三个高需求的任务(生成解毒、偏好对齐和推理加速)上,相比传统的推理干预方法,节省了大量的额外空间和时间开销,同时获得了与最先进的推理干预方法相当的性能。
🔸Otter在推理速度上显著优于Vicuna-draft和Medusa,实现了比基础模型高达172%的速度提升,并且在平均接受长度和加速方面也表现出色。
🔸以往的研究认为FFN层负责保存知识应优先扩展,但实验发现MHA组件比FFN组件效果要好的多,这个相反的结果值得思考。

💡个人观点

论文的创新点在于提出了一种非破坏性的参数插入方法,实现了高效的推理干预,同时保持了原始模型的输出和知识。

附录

在这里插入图片描述
在这里插入图片描述

  • 17
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值