
模型结构
文章平均质量分 91
亅-丿-丶丿丶一l一丶-/^n
这个作者很懒,什么都没留下…
展开
-
模型结构|解读transformer模型中三种attention和mask(一)
解读transformer模型中encoder和decoder的self-attention的区别原创 2024-12-19 22:46:58 · 1848 阅读 · 0 评论 -
介绍llama2|带有SwiGlu的FeedForward
从理论和源码的角度分析了llama2中带有SwiGlu的MLP层原创 2024-11-28 11:55:38 · 746 阅读 · 0 评论 -
介绍llama2|debug源码解读旋转位置编码RoPE(二)
从理论和代码的角度剖析llama旋转位置编码原创 2024-10-31 22:24:45 · 878 阅读 · 0 评论 -
介绍llama2|数学之美与旋转位置编码RoPE(一)
快速理解旋转位置编码的意义和原理原创 2024-10-13 22:40:35 · 1216 阅读 · 0 评论 -
介绍llama2|理解group query attention(GQA)
多角度分析llama模型的group query attention原创 2024-09-29 00:00:25 · 1833 阅读 · 0 评论