干货,人民大学《大语言模型》PDF全文分享

前段时间,人民大学初版了《大语言模型》一书,涵盖了模型架构、模型预训练、部署使用、智能体等内容。

整体而言,《大语言模型》全面介绍了大语言模型的技术背景、发展过程、关键技术、资源、训练方法、微调技术、人类对齐、部署应用以及未来趋势,为读者提供了一个关于大语言模型技术的深入视角。

  1. 大语言模型的发展历程:文章首先介绍了大语言模型的背景,包括ChatGPT的上线、大语言模型技术的重要性以及其发展历程,从统计语言模型到神经网络语言模型,再到预训练语言模型。

  2. OpenAI公司的贡献:文章特别提到了OpenAI公司在大模型技术变革中的引领作用,包括GPT系列模型的发展,如GPT-1到GPT-4,以及ChatGPT的推出。

  3. 技术挑战与资源限制:讨论了大模型训练的难点,包括算力限制、数据质量与规模的重视,以及学术界在资源上的挑战。

  4. 开放与共享的重要性:文章强调了开放和共享在推动大模型技术发展中的作用,包括公开的基础模型、技术代码和学术论文。

  5. 大语言模型的技术细节:文章提供了大语言模型技术的一些细节,如训练流程、数据清洗方法、指令微调技术、人类偏好对齐算法等。

  6. 大语言模型的资源:介绍了公开可用的模型检查点、API、预训练数据集、微调数据集和代码库资源。

  7. 预训练任务与模型架构:详细讨论了大语言模型的预训练任务,如语言建模、去噪自编码和混合去噪器,以及模型架构的设计,包括Transformer模型、编码器、解码器和不同配置的详细讨论。

  8. 模型预训练的实践:提供了预训练过程中的代码实践,包括数据准备、模型训练和参数量计算。

  9. 指令微调:探讨了指令微调的概念、数据构建方法、训练策略,以及参数高效的模型微调技术。

  10. 人类对齐:讨论了人类对齐的背景、标准和基于人类反馈的强化学习方法。

  11. 大模型的部署与应用:介绍了大模型的解码策略、加速算法、低资源部署策略和模型压缩方法。

  12. 评测与应用:概述了大语言模型的评测方法、评测指标、评测体系以及在不同研究和专业领域的应用。

  13. 总结:最后,文章对大语言模型技术的当前状态和未来发展趋势进行了总结。

以下是《大语言模型》的目录概览:

目录``   ``第一部分  背景与基础知识`                                        `第一章 引言`                                                           `1.1  语言模型的发展历程`       `1.2  大语言模型的能力特点`     `1.3  大语言模型关键技术概览`     `1.4  大语言模型对科技发展的影响`    `1.5  本书的内容组织`     `第二章 基础介绍`                                                      `2.1  大语言模型的构建过程`     `2.1.1  大规模预训练`     `2.1.2  指令微调与人类对齐`     `2.2  扩展法则`     `2.2.1  KM 扩展法则`      `2.2.2  Chinchilla 扩展法则`    `2.2.3  关于扩展法则的讨论`     `2.3  涌现能力`     `2.3.1  代表性的涌现能力`     `2.3.2  涌现能力与扩展法则的关系`     `2.4  GPT 系列模型的技术演变`      `2.4.1  早期探索`    `2.4.2  规模扩展`    `2.4.3  能力增强`    `2.4.4  性能跃升`    `第三章 大语言模型资源`                                               `3.1  公开可用的模型检查点或 API`           `3.1.1  公开可用的通用大语言模型检查点`      `3.1.2  LLaMA 变体系列`      `3.1.3  大语言模型的公共 API`          `3.2  常用的预训练数据集`      `3.2.1  网页`      `3.2.2  书籍`      `3.2.3  维基百科`     `3.2.4  代码`     `3.2.5  混合型数据集`      `3.3  常用微调数据集`     `3.3.1  指令微调数据集`     `3.3.2  人类对齐数据集`     `3.4  代码库资源`      `3.4.1  Hugging Face 开源社区`      `3.4.2  DeepSpeed`          `3.4.3  Megatron-LM`           `3.4.4  本书配套资源说明`      `第二部分  预训练`                                              `第四章 数据准备`                                                    `4.1  数据来源`    `4.1.1  通用文本数据`      `4.1.2  专用文本数据`      `4.2  数据预处理`      `4.2.1  质量过滤`     `4.2.2  敏感内容过滤`      `4.2.3  数据去重`    `4.2.4  数据对预训练效果的影响`      `4.2.5  数据预处理实践`     `4.3  词元化(分词)`      `4.3.1  BPE 分词`     `4.3.2 WordPiece 分词`      `4.3.3  Unigram 分词`      `4.3.4  分词器的选用`     `4.4  数据调度`     `4.4.1  数据混合`     `4.4.2  数据课程`     `4.4.3  预训练数据准备概述——以 YuLan 模型为例`    `第五章 模型架构`                                                  `5.1  Transformer 模型`     `5.1.1  输入编码`    `5.1.2  多头自注意力机制`  `5.1.3  前馈网络层`      `5.1.4  编码器`     `5.1.5  解码器`     `5.2  详细配置`    `5.2.1  归一化方法`      `5.2.2  归一化模块位置`     `5.2.3  激活函数`    `5.2.4  位置编码`    `5.2.5  注意力机制`      `5.2.6  混合专家模型`      `5.2.7  LLaMA 的详细配置`  `5.3  主流架构`    `5.3.1  编码器-解码器架构` `5.3.2  因果解码器架构`     `5.3.3  前缀解码器架构`     `5.4  长上下文模型`      `5.4.1  扩展位置编码`      `5.4.2  调整上下文窗口`     `5.4.3  长文本数据`      `   ``5.5  新型模型架构`      `5.5.1  参数化状态空间模型``5.5.2  状态空间模型变种`  `第六章 模型预训练`        `6.1  预训练任务`      `6.1.1  语言建模`     `6.1.2  去噪自编码`      `6.1.3  混合去噪器`      `6.2  优化参数设置`      `6.2.1  基于批次数据的训练``6.2.2  学习率`      `6.2.3  优化器`      `6.2.4  稳定优化技术`  `6.3  可扩展的训练技术``6.3.1  3D 并行训练`  `6.3.2  零冗余优化器`  `6.3.3  激活重计算`   `6.3.4  混合精度训练`  `6.4  模型参数量计算与效率分析`   `6.4.1  参数量计算`      `6.4.2  训练运算量估计`     `6.4.3  训练时间估计`      `6.4.4  训练显存估计`      `6.5  预训练代码实践`     `第三部分  微调与对齐`     `第七章 指令微调`          `7.1  指令数据的构建`     `7.1.1  基于现有的 NLP 任务数据集构建` `7.1.2  基于日常对话数据构建`  `7.1.3  基于合成数据构建`     `7.1.4  指令数据构建的提升方法`     `7.1.5  指令微调的作用`    `7.2  指令微调的训练策略`     `7.2.1  优化设置`     `7.2.2  数据组织策略`     `7.3  参数高效的模型微调`     `7.3.1  低秩适配微调方法`     `7.3.2  其他高效微调方法`     `7.4  代码实践与分析`    `7.4.1  指令微调的代码实践`   `7.4.2  指令微调的实验性分析` `7.4.3  LoRA 代码实践与分析`  `第八章 人类对齐`             `8.1  人类对齐的背景与标准`     `8.1.1  背景`     `8.1.2  对齐标准`    `8.2  基于人类反馈的强化学习`  `8.2.1  RLHF 概述     167``8.2.2  人类反馈数据的收集`   `8.2.3  奖励模型的训练`    `8.2.4  强化学习训练`     `8.2.5  代表性 RLHF 工作介绍`  `8.2.6  进阶 RLHF 工作介绍`   `8.3  非强化学习的对齐方法`     `8.3.1  对齐数据的收集`     `8.3.2  代表性监督对齐算法 DPO``8.3.3  其他有监督对齐算法`   `8.4  关于 SFT 和 RLHF 的进一步讨论`  `8.4.1  基于学习方式的总体比较`     `8.4.2  SFT 的优缺点`      `8.4.3  RLHF 的优缺点`      `第四部分  大模型使用`     `第九章 解码与部署`        `9.1  解码策略`     `9.1.1  背景`      `9.1.2  贪心搜索的改进`     `9.1.3  随机采样的改进策略``9.1.4  实际使用设置`      `9.2  解码加速算法`      `9.2.1  解码效率分析`      `9.2.2  系统级优化`      `9.2.3  解码策略优化`      `9.2.4  解码代码实践`      `9.3  低资源部署策略`     `9.3.1  量化基础知识`      `9.3.2  大模型训练后量化方法` `9.3.3  经验性分析与相关结论` `9.4  其他模型压缩方法`     `9.4.1  模型蒸馏`     `9.4.2  模型剪枝`     `第十章 提示学习`      `10.1  基础提示`      `10.1.1  人工提示设计` `10.1.2  自动提示优化` `10.2  上下文学习`     `10.2.1  上下文学习的形式化定义`  `10.2.2  示例设计`     `10.2.3  底层机制`     `10.3  思维链提示`    `10.3.1  思维链提示的基本形式`     `10.3.2  思维链提示的优化策略`     `10.3.3  关于思维链的进一步讨论`  `第十一章 规划与智能体`           `11.1  基于大语言模型的规划`     `11.1.1  整体框架`   `11.1.2  方案生成`   `11.1.3  反馈获取`   `11.2  基于大语言模型的智能体`    `11.2.1  智能体概述`    `11.2.2  大语言模型智能体的构建`  `11.2.3  多智能体系统的构建`     `11.2.4  大语言模型智能体的典型应用`   `11.2.5  待解决的关键技术问题`  `第五部分  评测与应用`    `第十二章 评测`           `12.1  评测指标与评测方法``12.1.1  常见评测指标`     `12.1.2  评测范式与方法`  `12.2  基础能力评测`     `12.2.1  语言生成`     `12.2.2  知识利用`     `12.2.3  复杂推理`     `12.3  高级能力评测`  `12.3.1  人类对齐`     `12.3.2  环境交互`     `12.3.3  工具使用`     `12.4  公开综合评测体系`    `12.4.1  MMLU`          `12.4.2  BIG-Bench`        `12.4.3  HELM`      `12.4.4  C-Eval`       `12.4.5  其他评测数据集与资源`      `12.4.6  公开评测资源选择参考`      `12.4.7  评测代码实践`   `第十三章 应用`                                                `13.1  大语言模型在研究领域的应用` `13.1.1  传统自然语言处理任务中的大语言模型`  `13.1.2  信息检索中的大语言模型`     `13.1.3  推荐系统中的大语言模型`     `13.1.4  多模态大语言模型     329``13.1.5  知识图谱增强的大语言模型`      `13.2  大语言模型在专业领域的应用`      `13.2.1  医疗场景下的大语言模型`     `13.2.2  教育场景下的大语言模型`     `13.2.3  法律场景下的大语言模型`     `13.2.4  金融场景下的大语言模型`     `13.2.5  科学研究场景下的大语言模型`   `第十四章 总结`                        `参考文献

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值