- 博客(11)
- 收藏
- 关注
原创 Pytorch基础|分布式数据并行 (DDP)以及其Pytorch实现
本篇文章进一步深入解析分布式数据并行(DistributedDataParallel, DDP)的原理,并解析分布式数据并行在Pytorch中的实现。
2024-07-05 17:49:04
606
原创 详解各种LLM系列|(4)GLM(GPT国内最强开源平替)模型架构、预训练技术详解
本文就GLM的基础构架和预训练方式,深入浅出地分析GLM为何实现如此出众的效果。
2024-04-23 23:23:02
3282
原创 Pytorch基础|数据并行(DP)以及其Pytorch实现
这篇文章将深入数据并行(Data Parallel,即常说的DP)的原理,并解析数据并行在Pytorch中的实现。
2024-03-14 14:52:11
1355
1
原创 详解各种LLM系列|(3)Mistral-7B 技术内容详解
Mistral - 7B是怎么实现在各项数据集上的表现都超过Llama2 - 13B的
2024-01-10 12:46:56
2669
1
原创 详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT、RLHF内容详解(PART-2)
这一篇继续详细深入Llama 2的 RLHF内容,以及其实现的实验结果
2023-12-09 17:04:30
1599
原创 详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT内容详解 (PART-1)
LLaMA 2模型架构、 预训练、SFT内容详解
2023-12-02 12:35:01
3221
1
原创 LLM基础|关于Self-Attention(自注意力机制)以及 Multi-head Attention(多头注意力机制)
本文深入一下Self-Attention(自注意力机制)以及 Multi-head Attention(多头注意力机制)的原理以及计算过程,主要的参考资料是台大李宏毅教授的授课内容,同时增加了一些从其他文章那里参考的细节,以及一些些个人的理解和心得。
2023-09-01 00:34:55
1826
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人