自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 LLM基础|最初的最初——分词器详解(只需看这篇就够!)

1. 根据不同的切分粒度可以把tokenizer分为: 基于词的切分,基于字的切分和基于subword的切分。 基于subword的切分是目前的主流切分方式。2. subword的切分包括: BPE(/BBPE), WordPiece 和 Unigram三种分词模型。3. 完整的分词流程包括:文本归一化,预切分,基于分词模型的切分,后处理。

2024-10-15 13:27:57 1094

原创 详解各种LLM系列|(6)PART-2: Qwen2-Math发布(在数学方面竟然超过GPT-4o和Claude-3.5?)

Qwen2-Math是一系列基于Qwen-2 LLM构建的专门用于数学解题的语言模型;此篇内容概括了Qwen2-Math的训练过程。

2024-08-19 14:45:51 1054

原创 详解各种LLM系列|(6)Qwen技术内容详解(万字长文,超级详细!)

本文基于Qwen的技术报告,详解了Qwen从预训练到RLHF对齐的技术内容,并增加一些技术详解,力求cover全貌的过程中尽量地解释一些重要的细节

2024-08-07 13:27:38 1809

原创 Pytorch基础|分布式数据并行 (DDP)以及其Pytorch实现

本篇文章进一步深入解析分布式数据并行(DistributedDataParallel, DDP)的原理,并解析分布式数据并行在Pytorch中的实现。

2024-07-05 17:49:04 970

原创 详解各种LLM系列|(5)LLaMA 3模型解析(Meta重磅发布!)

本文对近期发布的llama3进行技术详解

2024-06-17 14:04:46 1463

原创 详解各种LLM系列|(4)GLM(GPT国内最强开源平替)模型架构、预训练技术详解

本文就GLM的基础构架和预训练方式,深入浅出地分析GLM为何实现如此出众的效果。

2024-04-23 23:23:02 8129

原创 Pytorch基础|数据并行(DP)以及其Pytorch实现

这篇文章将深入数据并行(Data Parallel,即常说的DP)的原理,并解析数据并行在Pytorch中的实现。

2024-03-14 14:52:11 2027 1

原创 详解AI Agent系列|(1)AI Agent到底是什么

从high-level来简明概括地介绍一下AI Agent

2024-02-06 13:15:53 2901 4

原创 详解各种LLM系列|(3)Mistral-7B 技术内容详解

Mistral - 7B是怎么实现在各项数据集上的表现都超过Llama2 - 13B的

2024-01-10 12:46:56 3421 1

原创 LLM基础|模型后量化原理、量化类型及方式、量化实现效果

详细介绍了模型量化的方式

2023-12-21 11:11:18 2438 1

原创 详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT、RLHF内容详解(PART-2)

这一篇继续详细深入Llama 2的 RLHF内容,以及其实现的实验结果

2023-12-09 17:04:30 1867

原创 详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT内容详解 (PART-1)

LLaMA 2模型架构、 预训练、SFT内容详解

2023-12-02 12:35:01 3491 1

原创 详解各种LLM系列|(1)LLaMA 1 模型架构、预训练、部署优化特点总结

整理了LLaMA 1 模型架构、预训练、部署优化特点

2023-11-28 22:16:21 1276

原创 LLM基础|关于Self-Attention(自注意力机制)以及 Multi-head Attention(多头注意力机制)

本文深入一下Self-Attention(自注意力机制)以及 Multi-head Attention(多头注意力机制)的原理以及计算过程,主要的参考资料是台大李宏毅教授的授课内容,同时增加了一些从其他文章那里参考的细节,以及一些些个人的理解和心得。

2023-09-01 00:34:55 2290 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除