大模型领域非常火热,但是大模型事实上是一个复杂的工程系统,涉及的知识点很多。我们之前针对大模型的底层思想、模型架构、数据预处理、分词器tokenizer、模型微调、人类对齐、部署推理、提示词工程、智能体、检索增强生成、计算加速优化、GPU资源、安全性、生成式模型原理、大模型产品、应用及运营、多模态等分别都有相关的介绍,后续还会进一步补充相关的技术和实践分享,本文主要做一次系统性小结,方便阅读和回溯,具体的分类文章列表如下:
1. 底层思想
2. 模型架构
《Mixture of Experts(混合专家模型, MOE)》
3. 数据清洗及相关技术原理分析
《高质量数据过滤及一种BoostedBaggingFilter处理方法的介绍》
《大模型高质量数据的处理方法之无标注数据类别快速识别及重复数据检测》
(Word2Vec、TextCNN、Gated TextCNN(门控text-cnn)、FastText)》
4.分词Tokenization
《大模型数据词元化处理tokenization之BPE(Byte-Pair Encoding tokenization)及代码示例》
《大模型数据词元化处理之WordPiece分词及代码示例》
5. 模型训练及微调
6. 人类对齐
7. 模型部署及推理
8. 解码策略
《大模型生成之解码策略(涉及束搜索、长度及重复惩罚、温度调节、Top-K及Top-P采样、对比解码、解码策略优化等)》
9.大模型评估
10. 提示词工程
11. 智能体
12. 检索增强生成
2.《Agentic RAG(智能体RAG) 以及Multi-Source RAG(多数据源RAG)》
(回顾BPR、W&D、DeepFM、ALS等经典算法)》
13. 模型压缩
14. 计算加速优化
15. GPU资源
16. 安全性
17. 生成式模型原理分析
(涉及Stable Diffusion、生成对抗网络、高斯混合模型、隐马尔可夫模型、朴素贝叶斯等算法原理分析及生成式模型解释)》