自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_49659123的博客

原创 LLM基础｜最初的最初——分词器详解（只需看这篇就够！）

1. 根据不同的切分粒度可以把tokenizer分为: 基于词的切分，基于字的切分和基于subword的切分。基于subword的切分是目前的主流切分方式。2. subword的切分包括: BPE(/BBPE), WordPiece 和 Unigram三种分词模型。3. 完整的分词流程包括：文本归一化，预切分，基于分词模型的切分，后处理。

2024-10-15 13:27:57 1094

原创详解各种LLM系列｜（6）PART-2: Qwen2-Math发布（在数学方面竟然超过GPT-4o和Claude-3.5？）

Qwen2-Math是一系列基于Qwen-2 LLM构建的专门用于数学解题的语言模型；此篇内容概括了Qwen2-Math的训练过程。

2024-08-19 14:45:51 1054

原创详解各种LLM系列｜（6）Qwen技术内容详解（万字长文，超级详细！）

本文基于Qwen的技术报告，详解了Qwen从预训练到RLHF对齐的技术内容，并增加一些技术详解，力求cover全貌的过程中尽量地解释一些重要的细节

2024-08-07 13:27:38 1809

原创 Pytorch基础｜分布式数据并行（DDP）以及其Pytorch实现

本篇文章进一步深入解析分布式数据并行（DistributedDataParallel, DDP）的原理，并解析分布式数据并行在Pytorch中的实现。

2024-07-05 17:49:04 970

原创详解各种LLM系列｜（5）LLaMA 3模型解析（Meta重磅发布！）

本文对近期发布的llama3进行技术详解

2024-06-17 14:04:46 1463

原创详解各种LLM系列｜（4）GLM（GPT国内最强开源平替）模型架构、预训练技术详解

本文就GLM的基础构架和预训练方式，深入浅出地分析GLM为何实现如此出众的效果。

2024-04-23 23:23:02 8129

原创 Pytorch基础｜数据并行（DP）以及其Pytorch实现

这篇文章将深入数据并行（Data Parallel，即常说的DP）的原理，并解析数据并行在Pytorch中的实现。

2024-03-14 14:52:11 2027 1

原创详解AI Agent系列｜（1）AI Agent到底是什么

从high-level来简明概括地介绍一下AI Agent

2024-02-06 13:15:53 2901 4

原创详解各种LLM系列｜（3）Mistral-7B 技术内容详解

Mistral - 7B是怎么实现在各项数据集上的表现都超过Llama2 - 13B的

2024-01-10 12:46:56 3421 1

原创 LLM基础｜模型后量化原理、量化类型及方式、量化实现效果

详细介绍了模型量化的方式

2023-12-21 11:11:18 2438 1

原创详解各种LLM系列｜（2）LLaMA 2模型架构、预训练、SFT、RLHF内容详解（PART-2）

这一篇继续详细深入Llama 2的 RLHF内容，以及其实现的实验结果

2023-12-09 17:04:30 1867

原创详解各种LLM系列｜（2）LLaMA 2模型架构、预训练、SFT内容详解 (PART-1)

LLaMA 2模型架构、预训练、SFT内容详解

2023-12-02 12:35:01 3491 1

原创详解各种LLM系列｜（1）LLaMA 1 模型架构、预训练、部署优化特点总结

整理了LLaMA 1 模型架构、预训练、部署优化特点

2023-11-28 22:16:21 1276

原创 LLM基础｜关于Self-Attention（自注意力机制）以及 Multi-head Attention（多头注意力机制）

本文深入一下Self-Attention（自注意力机制）以及 Multi-head Attention（多头注意力机制）的原理以及计算过程，主要的参考资料是台大李宏毅教授的授课内容，同时增加了一些从其他文章那里参考的细节，以及一些些个人的理解和心得。

2023-09-01 00:34:55 2290 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Sunny_AI_addict CSDN认证博客专家 CSDN认证企业博客

码龄4年

IP 属地：新加坡

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

14: 原创

110万+: 周排名

5万+: 总排名

3万+: 访问

: 等级

372: 积分

164: 粉丝

228: 获赞

12: 评论

343: 收藏

私信

关注

热门文章

分类专栏

最新评论

详解AI Agent系列｜（1）AI Agent到底是什么
CodeWhisperer: 作者清晰地对比了AI Agent与LLM、RPA，还有ChatGPT加插件的区别，让人豁然开朗。AI Agent的概念框架和控制中心的五大能力解析得很到位，每个环节的挑战也讲得透彻，对理解AI Agent的本质很有帮助。
LLM基础｜关于Self-Attention（自注意力机制）以及 Multi-head Attention（多头注意力机制）
Sunny_AI_addict: 对于您的第一个问题 ‘能否也得出每个token对多头注意力机制后的序列向量的注意力权重呢？’ 我没有太理解；个人猜测您是想问在多头注意力机制输出后的序列向量下一步会怎么操作？
LLM基础｜关于Self-Attention（自注意力机制）以及 Multi-head Attention（多头注意力机制）
Sunny_AI_addict: 不好意思，确实在WO的部分有点略过了！用一个来与和的合并矩阵相乘再得到，这里比较直观的解释是输入到下一层的注意力分数的矩阵形状是确定的，然而在multi-head attention的情况下，原始的的合并矩阵的形状是[*,n]，即是既定输入矩阵形状的n倍；然而对于这个合并矩阵，简单相加或者平均会造成信息损失，因此这里引入了一个来转换，这个也是learn出来的！
详解AI Agent系列｜（1）AI Agent到底是什么
Sunny_AI_addict: 感谢认可但是割韭菜的要过分了！根本不尊重原创
LLM基础｜关于Self-Attention（自注意力机制）以及 Multi-head Attention（多头注意力机制）
水冰月地球分月: 请问多头注意力机制是计算的每个token对其他token的相关性那么能否也得出每个token对多头注意力机制后的序列向量的注意力权重呢？W0就是为了向量形状么，它是怎么来的？

最新文章

提示

确定要删除当前文章？

取消删除