- 博客(14)
- 收藏
- 关注
原创 LLM基础|最初的最初——分词器详解(只需看这篇就够!)
1. 根据不同的切分粒度可以把tokenizer分为: 基于词的切分,基于字的切分和基于subword的切分。 基于subword的切分是目前的主流切分方式。2. subword的切分包括: BPE(/BBPE), WordPiece 和 Unigram三种分词模型。3. 完整的分词流程包括:文本归一化,预切分,基于分词模型的切分,后处理。
2024-10-15 13:27:57 1094
原创 详解各种LLM系列|(6)PART-2: Qwen2-Math发布(在数学方面竟然超过GPT-4o和Claude-3.5?)
Qwen2-Math是一系列基于Qwen-2 LLM构建的专门用于数学解题的语言模型;此篇内容概括了Qwen2-Math的训练过程。
2024-08-19 14:45:51 1054
原创 详解各种LLM系列|(6)Qwen技术内容详解(万字长文,超级详细!)
本文基于Qwen的技术报告,详解了Qwen从预训练到RLHF对齐的技术内容,并增加一些技术详解,力求cover全貌的过程中尽量地解释一些重要的细节
2024-08-07 13:27:38 1809
原创 Pytorch基础|分布式数据并行 (DDP)以及其Pytorch实现
本篇文章进一步深入解析分布式数据并行(DistributedDataParallel, DDP)的原理,并解析分布式数据并行在Pytorch中的实现。
2024-07-05 17:49:04 970
原创 详解各种LLM系列|(4)GLM(GPT国内最强开源平替)模型架构、预训练技术详解
本文就GLM的基础构架和预训练方式,深入浅出地分析GLM为何实现如此出众的效果。
2024-04-23 23:23:02 8129
原创 Pytorch基础|数据并行(DP)以及其Pytorch实现
这篇文章将深入数据并行(Data Parallel,即常说的DP)的原理,并解析数据并行在Pytorch中的实现。
2024-03-14 14:52:11 2027 1
原创 详解各种LLM系列|(3)Mistral-7B 技术内容详解
Mistral - 7B是怎么实现在各项数据集上的表现都超过Llama2 - 13B的
2024-01-10 12:46:56 3421 1
原创 详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT、RLHF内容详解(PART-2)
这一篇继续详细深入Llama 2的 RLHF内容,以及其实现的实验结果
2023-12-09 17:04:30 1867
原创 详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT内容详解 (PART-1)
LLaMA 2模型架构、 预训练、SFT内容详解
2023-12-02 12:35:01 3491 1
原创 LLM基础|关于Self-Attention(自注意力机制)以及 Multi-head Attention(多头注意力机制)
本文深入一下Self-Attention(自注意力机制)以及 Multi-head Attention(多头注意力机制)的原理以及计算过程,主要的参考资料是台大李宏毅教授的授课内容,同时增加了一些从其他文章那里参考的细节,以及一些些个人的理解和心得。
2023-09-01 00:34:55 2290 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人