自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Pytorch基础|分布式数据并行 (DDP)以及其Pytorch实现

本篇文章进一步深入解析分布式数据并行(DistributedDataParallel, DDP)的原理,并解析分布式数据并行在Pytorch中的实现。

2024-07-05 17:49:04 606

原创 详解各种LLM系列|(5)LLaMA 3模型解析(Meta重磅发布!)

本文对近期发布的llama3进行技术详解

2024-06-17 14:04:46 1119

原创 详解各种LLM系列|(4)GLM(GPT国内最强开源平替)模型架构、预训练技术详解

本文就GLM的基础构架和预训练方式,深入浅出地分析GLM为何实现如此出众的效果。

2024-04-23 23:23:02 3282

原创 Pytorch基础|数据并行(DP)以及其Pytorch实现

这篇文章将深入数据并行(Data Parallel,即常说的DP)的原理,并解析数据并行在Pytorch中的实现。

2024-03-14 14:52:11 1355 1

原创 详解AI Agent系列|(1)AI Agent到底是什么

从high-level来简明概括地介绍一下AI Agent

2024-02-06 13:15:53 2212 2

原创 详解各种LLM系列|(3)Mistral-7B 技术内容详解

Mistral - 7B是怎么实现在各项数据集上的表现都超过Llama2 - 13B的

2024-01-10 12:46:56 2669 1

原创 LLM基础|模型后量化原理、量化类型及方式、量化实现效果

详细介绍了模型量化的方式

2023-12-21 11:11:18 1945 1

原创 详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT、RLHF内容详解(PART-2)

这一篇继续详细深入Llama 2的 RLHF内容,以及其实现的实验结果

2023-12-09 17:04:30 1599

原创 详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT内容详解 (PART-1)

LLaMA 2模型架构、 预训练、SFT内容详解

2023-12-02 12:35:01 3221 1

原创 详解各种LLM系列|(1)LLaMA 1 模型架构、预训练、部署优化特点总结

整理了LLaMA 1 模型架构、预训练、部署优化特点

2023-11-28 22:16:21 1068

原创 LLM基础|关于Self-Attention(自注意力机制)以及 Multi-head Attention(多头注意力机制)

本文深入一下Self-Attention(自注意力机制)以及 Multi-head Attention(多头注意力机制)的原理以及计算过程,主要的参考资料是台大李宏毅教授的授课内容,同时增加了一些从其他文章那里参考的细节,以及一些些个人的理解和心得。

2023-09-01 00:34:55 1826 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除