重磅发布!清华大学新作《大规模语言模型:从理论到实践》高清PDF免费分享!_大规模语言模型:从理论到实践 pdf

何谓大语言模型

大语言模型是一种由包含数百亿及以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文本进行训练。ChatGPT、MOSS都属于大语言模型。

为什么要阅读这本书

《大规模语言模型:从理论到实践》对大语言模型感兴趣的读者提供入门指南,也可作为高年级本科生和研究生自然语言处理相关课程的补充教材。

掌握大语言模型相关技术,给自己一个深入研究大语言模型的实践机会。

在这里插入图片描述

复旦NLP团队新作

  • 构建LLM的每个阶段都有算法、数据来源、代码、难点及实践经验的详细讨论
  • 结合作者在NLP领域多年的研究经验、超300篇相关论文深度研读感悟
  • 分享作者团队从0开始研发复旦大学MOSS大语言模型过程中的实践经验,为读者展示大语言模型训练的全流程细节

在这里插入图片描述

本书架构

在这里插入图片描述
在这里插入图片描述

本书结构

基础理论部分:介绍LLM的基础理论知识

  • 语言模型的定义
  • Transformer结构
  • 生成式预训练语言模型GPT
  • 大语言模型的结构
  • 注意力机制优化
  • 实践:基于HuggingFace的预训练语言模型
  • 实践:以LLaMA使用的模型结构为例

预训练部分:围绕LLM预训练数据和分布式训练展开

  • 数据来源
  • 数据预处理方法
  • 开源数据集
  • 模型分布式训练
  • 数据并行
  • 流水线并行
  • 模型并行
  • Zero系列优化方法
  • 实践:以DeepSpeed为例,进行LLM预训练
  • 实践思考分享
  • 难点:如何构建训练数据,如何高效地进行分布式训练。

指令理解部分:围绕LLM有监督微调、强化学习展开

  • 提示学习
  • 语境学习
  • 高效模型微调(LORA、Delta Tuning等)
  • 有监督微调数据构造方法
  • 模型上下文窗口扩展
  • 指令数据的构建
  • 强化学习基础
  • RLHF
  • 奖励模型
  • 近端策略优化
  • 实践:DeepSpeed-Chat SFT
  • 训练类ChatGPT系统MOSS-RLHF
  • 实践思考分享
  • 难点:如何构建训练数据,包括训练数据内部多个任务之间的关系、训练数据与预训练之间的关系及训练数据的规模。如何解决强化学习方法稳定性不高超参数众多及模型收敛困难等问题。

模型应用部分:围绕LLM的应用和评估展开

  • 思维链提示
  • 由少至多提示
  • LangChain技术
  • Agent
  • 多模态大模型
  • LLM评估体系
  • LLM评估方法
  • LLM评估实践
  • LLMEVAL
  • 实践思考分享
篇幅有限,这里就不一一展示了,这份完整版的PDF 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
  • 20
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值