LLM
文章平均质量分 93
zzyincsdn
一只很难受的程序猿
展开
-
从FasterTransformer源码解读开始了解大模型(2.4)代码通读05
ContextDecoder部分是用于处理输入部分的组件层,在这一层中,会对所有输入的input ids进行处理,计算Attention(在此过程中还会生成KV Cache),计算FFN,在完成所有输入部分计算之后,会生成输出部分的第一个token。原创 2024-09-01 21:29:11 · 916 阅读 · 0 评论 -
从FasterTransformer源码解读开始了解大模型(2.3)代码通读04
本篇的内容继续解读forward函数,从972行开始进行解读。原创 2024-07-21 20:07:29 · 623 阅读 · 0 评论 -
从FasterTransformer源码解读开始了解大模型(2.2)代码通读03
本篇的内容继续解读fastertransformer forward函数,从650行开始进行解读。原创 2024-07-07 22:56:01 · 960 阅读 · 0 评论 -
从FasterTransformer源码解读开始了解大模型(2.1)代码通读02
本篇的内容主要是介绍ParallelGpt.cc中的代码内容,首先介绍一些初始化和工具函数,然后会从forward主函数开始介绍一部分。原创 2024-06-16 22:13:53 · 1091 阅读 · 0 评论 -
从FasterTransformer源码解读开始了解大模型(2.0)代码通读01
本篇的内容直接开始我们的代码通读,整个通读可能需要好几篇文章来将一整个gpt的代码结构给讲清楚。目前的计划是先从整体model层次开始讲,将ContextDecoder和Decoder讲完之后,再从模块内部(MHA和FFN)代码开始讲,中间也会穿插一些技术点的讲解。原创 2024-05-12 19:00:26 · 988 阅读 · 1 评论 -
从FasterTransformer源码解读开始了解大模型(1.1)一个decoder-only的模型长啥样
对于一个没有接触过LLM的初学者来说,如果想要了解一个大模型的推理框架,首先应该知道大模型整个的工作原理是怎样的,知道transformers的结构是怎么生成词的,否则很容易会在读代码的过程中越读越迷糊,进入一种“我在哪里?我在看什么?这一段是做什么的”困惑状态,所以在此先推荐从来没有接触过相关知识的同学去读一下Attention is all you need的论文原文。原创 2024-04-06 20:53:10 · 1834 阅读 · 0 评论 -
从FasterTransformer源码解读开始了解大模型(1.0)了解FasterTransformer
FasterTransformer(下文简称FT或者ft)是一个用于大语言模型的推理引擎。目前ft的源代码里集成了bart,bert,gpt2(代码中叫multi_gpu_gpt)、t5等模型,如果有一定开发能力,还可以自己在ft里集成llama、chatglm等模型。通过对FT进行源码解读,可以学习到很多大模型的相关知识原创 2024-03-24 21:56:56 · 1266 阅读 · 0 评论