llama2.c推理

模型图
在这里插入图片描述

代码及分析

不需要考虑任何mask问题,直接通过矩阵计算求出下三角矩阵每个元素的值即可,不需要额外添加mask之类的。

temperature=0(确定性)的时候,模型推理每次都取概率最大的(从而导致同样的输入prompt会有完全相同的输出);否则根据概率分布来挑选,即有一定概率输出和前一个字不搭配的字

多头注意力机制有两种理解,实现和效果也不同,一种是将embedding维切分成head_num个m=embedding/head_num维,产生m组不同的qkv(维度也不再是embedding)分别对切分后的m组向量做注意力(一一对应)最后拼起来还原为embedding维,另一种理解是,不需要对embedding切分,而是用正常embedding维的大小的qkv分别做注意力,最后也是拼接起来,这时候embedding维拓展成head_num*embedding维,只需要再用一个矩阵线性变换为embedding维即可。
本文的代码基于第一种理解

kv-cache
主要思想就是通过缓存之前的注意力结果以及只挑当前时间步的Q来计算注意力减少计算量。每个时间步t只需要算当前词Wt对W1~t的注意力,因此只需要用当前词的Qt和K1~t以及V1~t即可求出最终的下一个向量的表示,此时再拼接到之前W1~t-1的向量表示即可
在这里插入图片描述

作者也没使用任何矩阵运算库,直接就是根据矩阵的定义行列向量点乘求和求出且只考虑矩阵和向量之间的矩阵乘法

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值