论文导读 | 投机解码加速模型推理

PKUMOD

已于 2024-05-17 15:31:38 修改

阅读量3.5k

点赞数 28

文章标签：人工智能

于 2024-05-17 15:30:30 首次发布

本文链接：https://blog.csdn.net/weixin_48167662/article/details/139006059

版权

投机解码

投机解码(speculative decoding)最早在[1,2]中被提出。其方法可以概括为由一个小模型一次猜一批可能的结果，再由大模型并行地验证这些结果是否要接受。投机解码算法的提出，主要源于两点观察：

和early exit的想法类似，在一些相对简单的问题下，我们可以用小模型（或者大模型的前面几层）的输出得到很好的结果。如果我们用小模型去回答这些简单的问题，在遇到难题的情况下再调用大模型，就可以整体的生成效率。
大模型在做推理任务的时候，一次只能生成一个token，无法并行计算。如果我们能让大模型一次处理一批tokens，就能利用上算例的并行能力。（大模型推理的时候batch size往往为1）

投机解码利用了上面两个观察，先用小模型猜后续的若干个tokens，如果当前的问题比较简单，则小模型有更大的可能猜对多个token。然后再用大模型并行的验证这一些token是否符合大模型的输出。由于现代计算机的并行能力，我们可以近似的认为大模型处理一个token和处理w个token的用时是几乎一样的。假设我们一次猜n个tokens，平均有m个token会被最终接收，那么在这个过程中：我们调用了n次小模型D，1次大模型T，生成了m个token，平均每个token的用时为 $(n D + T) / m$ 。只要nD显著地小于(m-1)T，就能实现很好的加速效果。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于大模型来说，decoding的时候有几种方案：

Greedy：每次选择logit最大的token
归一化logits后按照分布采样
Top k：保留最大的k个token
Top p：从大到小保留概率分布和为p的token
（top k/top p）+（greedy/sampling）

投机是一个加速推理的技术，为了保证这样得到的结果performance不下降，这一系列工作认为只要保证最后的概率分布一样即可。因此，只需要大模型验证的方法能保证整个过程输出的结果的概率分布不变。

具体的验证方法如下图伪代码所示。验证操作弥补了小模型和大模型之间的概率分布的gap，思路是对于小模型的每一次猜测，根据大模型和小模型的概率分布去判断这一次猜测有多大概率是正确的。相当于是从小模型的采样到大模型的采样之间做了一个映射，可以把小模型和大模型的概率分别看成若干个随机事件，然后将小模型的随机事件和大模型的随机时间做映射，如果两边的随机事件的结果一致，我们就认为这个猜测是正确的。下图的做法可以理解成是最大化猜测正确概率的一个映射。特别地，如果两个概率分布一样，则猜测正确的概率为1。

如果在某一部中我们认为小模型的猜测是错误的，那么后面的结果都是无效的。此时用大模型最后一步得到的概率分布做一个采样后退出。这一步既是保证输出同分布必须的，又可以保证每次至少输出一个token。