如何系统的从0到1学习大模型？相关书籍及课程那些比较好？-CSDN博客

本文链接：https://blog.csdn.net/youmaob/article/details/142741624

要从0到1学习大模型的话，基本上自Transformer诞生之后的知识都需要掌握，比方说vanilla Transformer、BERT、BART、RoBERTa、GPT-2/3、T5等等这些最经典的模型，这些仅是基础部分；LLM火起来之后，LLM训练相关的一整套pipeline（pre-training、SFT、RLHF）、prompt engineering、CoT、RAG、MoE这些东西究竟在做什么，要比较清楚。

个人比较推荐的是两本关于大模型的书：《大模型应用解决方案》和《快速部署大模型》。这两本书关于上述知识都有完整的覆盖及详细的讲解，这两本书相辅相成，前者主要围绕一系列经典Transformer模型，以项目制的方式开展知识讲解；后者则补充了大语言模型（LLM）最新的前沿技术。全书基本上以“理论搭配代码实现”的方式进行讲解，既不会像部分论文那样晦涩难懂，又不失工具书的实用性，对于某个特定模型背后的原理，以及怎么部署，讲解得还是非常详尽的。

《大模型应用解决方案》

《快速部署大模型》

另外这两本书有非常优质的配套代码资源。代码作为科研过程中的实践部分，直接关系到了idea能否实现出来，实验是否能work，可以说是深度学习的基本功。而往往新手的科研之路是否能够顺利，很大程度取决于第一份接触到的代码质量。说句实话，甚至很多顶会文章的开源代码，无论是github文档，还是代码的干净、完整程度，其易用性是有待考究的。如果新手在刚起步的阶段接触到的都是低质量的代码的话，且不说对于其科研习惯会造成怎样的影响，在心理上就会形成很大的“劝退”效应。

这两本书配套的代码资源对于模型部署的全生命流程都有很好的样例演示，从数据预处理、到模型定义、再到training loop、再到模型的testing和benchmarking，都有在公开数据集上的样例。有需要的朋友欢迎参考我往期关于这两本书的深度解读，里面提供了部分代码样例和书本内容。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~