llama2.c推理

WAWA战士

已于 2023-12-01 16:12:30 修改

阅读量386

点赞数 1

文章标签：人工智能机器学习算法

于 2023-12-01 16:09:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45670020/article/details/134736542

版权

文章讨论了如何通过矩阵计算求解模型图中下三角矩阵的元素，区分了多头注意力机制两种理解，重点介绍了kv-cache技术，它通过缓存注意力结果并仅处理当前时间步的查询，显著减少了计算量。作者使用基础的矩阵操作而非库函数来实现高效计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型图
在这里插入图片描述

代码及分析

不需要考虑任何mask问题，直接通过矩阵计算求出下三角矩阵每个元素的值即可，不需要额外添加mask之类的。

temperature=0（确定性）的时候，模型推理每次都取概率最大的（从而导致同样的输入prompt会有完全相同的输出）；否则根据概率分布来挑选，即有一定概率输出和前一个字不搭配的字

多头注意力机制有两种理解，实现和效果也不同，一种是将embedding维切分成head_num个m=embedding/head_num维，产生m组不同的qkv（维度也不再是embedding）分别对切分后的m组向量做注意力（一一对应）最后拼起来还原为embedding维，另一种理解是，不需要对embedding切分，而是用正常embedding维的大小的qkv分别做注意力，最后也是拼接起来，这时候embedding维拓展成head_num*embedding维，只需要再用一个矩阵线性变换为embedding维即可。
本文的代码基于第一种理解

kv-cache
主要思想就是通过缓存之前的注意力结果以及只挑当前时间步的Q来计算注意力减少计算量。每个时间步t只需要算当前词Wt对W1～t的注意力，因此只需要用当前词的Qt和K1～t以及V1～t即可求出最终的下一个向量的表示，此时再拼接到之前W1～t-1的向量表示即可
在这里插入图片描述

作者也没使用任何矩阵运算库，直接就是根据矩阵的定义行列向量点乘求和求出且只考虑矩阵和向量之间的矩阵乘法

博客等级

码龄6年

220
原创

412
点赞

802
收藏

1089
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: transformer训练与推理

下一篇：: OpenGauss源码分析-SQL引擎

最新评论

matlab快速入门（学习笔记，图片加少量文字解释）
CSDN-Ada助手: 逆风的方向，更适合奋力飞翔。
OpenGauss源码分析-SQL引擎
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/618030499。
OpenGauss源码分析-SQL引擎
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617930302。
汇编变量名的本质是什么？
巴渝小禹: 根据《微型计算机原理与接口技术》第五版周荷琴冯焕清/编著 p50-51页。如果有： A DW 1234H 的话，那么： MOV AX, A MOV AX, [A] MOV AX, DS:A MOV AX, DS:[A] 这四种表示应该都是等效的。 A是变量名，表示一个数据区名字，也就是符号地址。我的理解是它既是名字也是地址，所以既可以加中括号也可以不加。最后应该都会被转换成默认的段超越的写法MOV AX, DS:[A]
Softmax-with-Loss层反向传播的值除以批的大小
学习海鸥: 对，我也很疑惑，dx的结果不应该是一个n*10的矩阵吗

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。