大模型是如何工作的？——年度书籍推荐！附PDF

AIGC莹子

于 2024-08-06 11:15:39 发布

阅读量480

点赞数 7

文章标签： pdf 人工智能语言模型职场和发展面试自然语言处理

本文链接：https://blog.csdn.net/z551646/article/details/140950536

版权

经常有人来问我想0基础快速搭建大语言模型，不知从何入手？这里给各位大语言模型爱好者们推荐一本能够实现快速部署大语言模型的好书——《快速部署大模型》！里面还内置了各种代码可以方便测试：

在这个人工智能飞速发展的时代，大语言模型的应用场景越来越广泛。无论是智能客服、智能写作还是智能翻译，大语言模型都展现出了强大的能力。但是，对于很多爱好者来说，部署大语言模型似乎是一件遥不可及的事情。

本文介绍的所有书籍都可以添加下方领取一下！
在这里插入图片描述
这部书有以下几个突出的特点：

首先，它操作简单，即使你没有深厚的编程基础，也能轻松上手。通过简洁明了的界面和指引，你可以在短时间内完成大语言模型的部署。

其次，它支持多种模型选择，无论你是喜欢热门的 GPT 系列，还是钟情于其他优秀的大语言模型，都能在这里找到适合你的选项。

这本书还提供了丰富的定制化功能。你可以根据自己的需求，调整模型的参数，使其更好地适应你的应用场景。

更重要的是，此书还为大家提供了详细的教程和案例，帮助大家更好地理解和应用大语言模型。无论你是想要进行学术研究，还是开发实际的应用项目，都能为你提供有力的支持。

从ChatGPT、GPT-4、GPT-4o、文心一言、Qwen2到ChatGLM、Kimi、豆包…我们好像被大模型包围了。想象一下，你可以在自己的项目中轻松运用大语言模型，实现智能对话、文本生成等功能，这将是多么令人兴奋的事情！

各种大模型应用、AI Agent层出不穷，AI界有自己的[军备竞赛]。但是在[热闹的应用]背后，大模型是如何工作的呢？

LLM 的表现效果仅是合格还是最佳,取决于其预训练和微调的方式。

预训练

市场上的每个 LLM 都经过了大量文本数据和特定语言建模相关任务的预训练。在预训练期间，LLM尝试学习和理解通用语言与单词之间的关系。每个 LLM 都经过不同语料库和不同任务的训练。

例如,BERT最初是在2个公开可用的文本语料库上进行预训练。

• 英文维基百科: 免费在线百科全书维基百科英文版的文章集合。包含一系列主题和多种写作风格，使其成为英语文本(约25亿单词)的多样化和代表性样本。

• BookCorpus: 大量的小说和非小说类书籍。通过从网络上抓取书籍文本而创建，包括从浪漫到悬疑，再到科幻及历史题材的各种类型。语料库中的书籍最小长度为2000个单词，并且由验证过身份的作者用英语撰写(总共约8亿单词)。

BERT 在这两个特定的语言建模任务上进行了预训练。

• 掩码语言建模(MLM)任务(自编码任务): 帮助 BERT 识别单个句子内的词元交互。

• 下一句预测(NSP)任务: 帮助 BERT 理解句子之间的词元是如何相互作用的。

随着时间的推移，LLM的预训练不断发展，不同的模型可能在不同的数据集上进行训练，这也是不同LLM之间存在差异的一个原因。一些 LLM 在专有数据源上进行训练,包括 OpenAI的 GPT 系列模型,这样会使这些公司比竞争对手更具优势。

2. 迁移学习

迁移学习是机器学习技术的一种，利用从一个任务中获得的知识来提高另一个相关任务的性能。迁移学习通过利用预训练大型语言模型（LLM）中蕴含的语言知识，减少特定任务微调所需的数据量，显著提高学习效率。此方法涉及在通用语料库预训练后，使用少量特定任务数据对模型进行优化，从而降低从头训练模型的时间和资源成本。过程包括通用预训练和具体任务微调两个阶段。

3. 微调

一旦LLM 经过预训练,就可以针对特定任务进行微调。微调涉及在较小的特定任务数据集上训练LLM,以调整其参数,使其适应特定任务。这使得LLM能够利用其预训练的语言知识来提高在特定任务上的准确性。微调已被证明可以极大地提高特定领域和特定任务的性能,并使 LLM 能够快速适应各种 NLP应用。

无论是开源还是闭源，流程或多或少都是一样的：

(1)定义要微调的模型以及全部微调参数(例如学习率)。

(2)聚合一些训练数据(格式和其他特征,取决于当前更新的模型)。

(3)计算损失(误差的度量)和梯度(如何改变模型以最小化误差的信息)。

(4)通过反向传播来更新模型———更新模型参数以最小化误差的机制。

4．注意力

注意力机制是深度学习模型中的一个关键概念，它允许模型在处理输入数据时动态地关注不同的部分。Transformer模型尤其依赖于这种机制，注意力机制让大型语言模型（LLM）能够在预训练过程中学习到文本中不同单词或词元之间的依赖关系，并在微调时针对特定任务调整这种关系，从而提高模型在下游任务上的性能。

不过，对于学习任何规则的 LLM,它都必须将人们认为的文本转换为机器可读的内容。这是通过嵌入过程完成的。

5．嵌入

嵌入是在高维空间中对单词、短语或词元的数学表示。在 NLP 中,嵌入用于表示单词、短语或词元,以捕捉它们的语义含义以及与其他单词的关系。可能有多种类型的嵌入,包括对句子中词的位置进行编码的位置嵌入,以及对词的语义进行编码的词嵌入。

一旦文本被词元化,每个词元都会被赋予一个嵌入,然后将每个词元的嵌入和位置嵌入相加,因此每个词元在计算任何注意力之前都有一个初始嵌入。除非它们有更实际的目的,否则人们不会过多关注LLM 嵌入的各个层,但了解这些部分以及它们的内涵是有益的。 LLM 根据预训练学习不同词元的嵌入,并可以在微调期间进一步更新这些嵌入。

6．词元化

词元化涉及将文本分解为最小的理解单元———词元。词元化过程是句子按照语义切割成小片断,并以嵌入方式参与注意力机制的计算过程,这也是大模型训练的重要环节之一。词元组成了LLM 的静态词汇表,但并不总是代表整个单词，也可以是标点符号、单个字符。LLM不采用传统NLP的stop word删除等技术，以保持语言复杂性与多样性。

7. 超越语言建模：对齐+RLHF

语言模型的对齐是指模型对符合用户期望的输入进行提示的反应程度。标准的语言模型根据之前的上下文预测下一个单词，但这可能会限制它们对特定指令或提示的有效性。研究人员正在提出可扩展且高性能的方法来将语言模型与用户意图对齐。一种广泛使用的对齐语言模型的方法，是将强化学习(RL)纳入训练循环。

人类反馈强化学习(RLHF)是一种流行的对齐预训练LLM的方法，它利用人类反馈来增强模型性能。允许LLM 从相对较小、高质量的批量人类反馈中学习其自身输出，从而克服传统监督学习的一些局限性。人类反馈强化学习在 ChatGPT 等现代LLM 中取得了显著进步。这是使用强化学习进行对齐的一种方法,同时还出现了其他对齐方法，如具有 AI反馈的强化学习(如constitutionalAI)。

因此想要更深入更系统地了解大模型的方方面面，可以看这本入门读物——《快速部署大模型：LLM策略与实践基于ChatGPT BERT等大语言模型》 ，虽然是入门读物，但是也很具实战性，内容上覆盖了大模型的基本结构概述、提示词工程、大模型的微调、强化学习与人类反馈、大模型制作检索引擎、推荐系统、文图检索、开源与闭源等内容。

这本书阅读下来的最大感受是很“实在”，没有过多花里胡哨的镶边内容，直截了当，入门者看前两章就能建立对LLM的认识，比如前文[大模型的工作原理]就来自这本书的第一章。后面的微调、高级提示工程等内容程序员更可以直接拿来用。

整本书一共9章，分成4个部分：

第一部分是大模型介绍，包括前3章，读完基本能理解LLM是什么，如何工作、怎么做语义搜索和提示工程入门；

第二部分叫充分挖掘大模型的潜力，包括4-6章，涵盖了LLM微调、更高级的提示工程策略技术、通过微调基于OpenAI的推荐引擎介绍如何修改模型体系结构和嵌入，

第三部分讲大模型的高级应用，是最后3章，组合了多个LLM，并用PyTorch建立一个框架来构建自定义的LLM架构，还讲了微调高级开源LLM的实践指南和示例，以及在生产环境中部署LLM的实际注意事项。

第二三部分都是非常实用的。

第四部分是附录，也很有意思，收录了一些LLM的术语以及大家可能关心的问题，比如LangChain、如何处理过拟合和欠拟合等问题。

整体来说，这本书的亮点在于：

1、全面且有选择性地深入，基本涵盖了LLM的各方面，对语义搜索、高效提示工程（Prompt Engineering）以及这些模型的微调等关键领域进行了深入介绍，这样的好处是对于初学者来说，既可以建立全面的认知，又能在工作中上手即用，是一个很好的平衡取舍。

2、覆盖了一些高级的话题：比如模型架构修改、嵌入技术以及下一代模型，这写话题的加入又拓展了它作为一本入门书的价值，学有余力或者有类似需要的读者也不会失望。

3、本书提供书中讲解涉及的全部代码，扫描图书封底的二维码即可下载，读者可以细细揣摩作者是如何进行调优，对齐，从小样本中获取结果等等，非常实用！

缺点在于：

1、没有涉及国内几款大模型。

2、翻译书的通病，阅读体验还是略显干涩。

总的来说，作为一本200页左右的入门书籍，深度和广度都到位了，不过毕竟不是科普读物，更建议有编程基础但是没有大模型基础的人读，收获会更多~另外这本《大模型应用解决方案》也可以配套使用，人人都在学的大模型黑书哈哈！

需要上述所有书籍和大模型黑书的宝子，记得添加下方领取~

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。
阶段2：2-3个月，专注于API应用开发能力的提升。
阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

AIGC莹子

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大模型是如何工作的？——年度书籍推荐！附PDF

首先，它操作简单，即使你没有深厚的编程基础，也能轻松上手。通过简洁明了的界面和指引，你可以在短时间内完成大语言模型的部署。其次，它支持多种模型选择，无论你是喜欢热门的 GPT 系列，还是钟情于其他优秀的大语言模型，都能在这里找到适合你的选项。这本书还提供了丰富的定制化功能。你可以根据自己的需求，调整模型的参数，使其更好地适应你的应用场景。更重要的是，此书还为大家提供了详细的教程和案例，帮助大家更好地理解和应用大语言模型。无论你是想要进行学术研究，还是开发实际的应用项目，都能为你提供有力的支持。
复制链接

扫一扫