《大语言模型》PDF下载

最新推荐文章于 2024-08-02 19:24:07 发布

麻辣排骨面

最新推荐文章于 2024-08-02 19:24:07 发布

阅读量469

点赞数 5

文章标签：语言模型 pdf 人工智能产品经理 AIGC 智能手机自然语言处理

本文链接：https://blog.csdn.net/ytt0523_com/article/details/139234035

版权

《大语言模型》

作者：赵鑫，李军毅，周昆，唐天一，文继荣

👉PDF获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【`保证100%免费`】🆓

关于本书

2022 年底，ChatGPT 震撼上线，大语言模型技术迅速“席卷”了整个社会，人工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能，我们不禁要问：支撑这些模型的背后技术究竟是什么？这一问题无疑成为了众多科研人员的思考焦点。

必须指出的是，大模型技术并不是一蹴而就，其发展历程中先后经历了统计语言模型、神经网络语言模型、预训练语言模型等多个发展阶段，每一步的发展都凝结了众多科研工作者的心血与成果。作为大语言模型技术的重要推动者，OpenAI 公司引领了本次技术变革，让我们再次回顾其针对大模型技术的研发历程。2015 年，OpenAI 公司正式创立，开始探索通用人工智能的技术路线。早期的 OpenAI 团队围绕强化学习、多模态、语言模型等几个重要方向进行了深入研究。其中，由 Ilya Sutskever 领导的团队主要关注语言模型的研究。当谷歌 2017 年推出基于注意力机制的 Transformer 模型后，OpenAI 团队迅速洞察到了其潜在的优越性，认为这种模型可能是一种大规模可扩展训练的理想架构。基于此，OpenAI 团队开始构建 GPT 系列模型，并于 2018 年推出了第一代 GPT 模型—GPT-1，能够通过“通用文本训练-特定任务微调”的范式去解决下游任务。接下来，GPT-2 和 GPT-3 模型通过扩大预训练数据和模型参数规模，显著提升了模型性能，并且确立了基于自然语言形式的通用任务解决路径。在 GPT-3 的基础上，OpenAI 又通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级，推出了功能强大的 GPT-3.5 系列模型。2022 年 11 月，ChatGPT 正式上线，能够以对话形式解决多种任务，使得用户能够通过网络 API 体验到语言模型的强大功能。2023 年 3 月，OpenAI 推出了标志性的 GPT-4 模型，将模型能力提升至全新高度，并将其扩展至拥有多模态功能的 GPT-4V 模型。

反观 GPT 系列模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式：Transformer 架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式；第二点是对于数据质量与数据规模的重视：不同于 BERT 时代的预训练语言模型，这次大语言模型的成功与数据有着更为紧密的关系，高质量数据、超大规模数据成为大语言模型的关键基础。上述的思路看似简单，但能够从早期众多的技术路线中寻找到这条路线，并且坚定地去执行这条路线，这就是 OpenAI 成功的关键所在。回顾 OpenAI 的早期论文，实际上早在 GPT-2 的论文中，就深入讨论了基于大规模文本预训练的通用任务学习范式，让人不禁感叹 OpenAI 团队的技术前瞻性。虽然这种研究模式很难复制，但是值得我们去思考、学习。

OpenAI 团队自 GPT-3 开始，就很少在公开的材料中提及相关技术细节，很多技术报告主要是介绍评测相关的内容。到目前为止，关于 GPT 系列模型的核心技术仍然难以完全解密。虽然有众多公司在尝试复刻 GPT 水平的大语言模型（如 Anthropic、Google 等），但是整体来说，OpenAI 仍然在大模型技术上有着较大的领先性。根据 Sam Altman 的公开采访介绍，尚未发布的 GPT-5 相比 GPT-4 将会有重要的技术进步。如果事实如此，那么 GPT-5 的到来将再次拉大了与当前其他大语言模型的差距，可能意味着人类向着通用人工智能又迈出了重要一步。

相信有很多人都会有一个共同的疑问：为什么 GPT 水平的大模型难训练？关于为何 GPT 级别的大模型难以训练，许多人可能会首先想到算力的限制。确实，为了训练百亿级别的高水平大模型，通常需要最少百卡级别的 A100/A800 (80G) 资源，而为了充分探索训练过程中的各种细节，往往需要有千卡级别的 A100/A800 (80G) 资源作为支撑。而对于千亿、万亿模型来说，所需要耗费的算力资源更是极为庞大。目前，学术界面临的重大挑战是真正有充足资源去尝试预训练技术的团队少之又少，因此导致了第一手经验匮乏，难以直接开展相关研究。

大模型训练涉及众多训练的细节，这些细节很多时候无法从已有科研论文中直接获取。在统计学习时代，可以针对机器学习模型进行非常充分的实证研究，例如使用栅格搜索参数的最优值、选择核函数、执行交叉验证等。通过广泛的调优实验，研究人员很快就能积累充足的训练经验，进而形成对于这些统计机器学习模型的深入理解。但是，大语言模型由于参数众多、组件复杂、训练过程也比较复杂，早期的实验探索如果不引入任何先验知识，可能会导致指数级增长的实验数量。然而，现实情况是，很多研究人员并没有足够的资源去完成一次完整的大规模预训练实验，这使得掌握大模型技术的第一手经验变得尤为困难，更不用说从零开始探索相关科研问题，极大限制了学术界在此次人工浪潮中所起到的作用。目前，能力较强的大语言模型基本都源自工业界，这一趋势随着时间的推移可能会变得更加明显。从第一手经验中“Know-How”，对于科研人员来说非常重要，只有接触到技术核心，才能真正理解哪些问题是有意义的，并找到解决方案。

令人欣喜的是，无论是在学术界还是工业界，人们都逐渐认识到了“开放”的重要性，能够看到越来越多的公开的基础模型、技术代码以及学术论文，有力地推动了大模型技术的“透明化”。只有通过开放和共享，才能汇聚全人类的智慧，共同推进人工智能技术的发展。实际上，根据现有公开的资料，大模型技术也是 “有章可循”的，如整体训练流程、数据清洗方法、指令微调技术、人类偏好对齐算法等。根据这些技术，在算力资源支持下，研发人员已经能够较为顺利地完成大模型的整体训练流程，并取得不错的模型效果。随着更多核心技术的揭示和开放，大模型技术的“透明化”将进一步提高。

为了更好地整理和传播大模型技术的最新进展与技术体系，我们在 2023 年 3 月发表了大语言模型综述文章《A Survey of Large Language Models》，并不断进行更新完善。这篇综述文章已经更新到第 13 个版本，包含了 83 页的正文内容，并收录了 900 余篇参考文献。自英文综述文章上线后，陆续有读者询问是否有对应的中文版本。为此，我们于 2023 年 8 月发布了该综述（v10）的中文翻译版。在 2023 年 12 月底，为了更好地提供大模型技术的中文参考资料，我们启动了中文书的编写工作，并且于近日完成初稿。与英文综述文章的定位不同，中文版书籍更注重为大模型技术的入门读者提供讲解，为此我们在内容上进行了大幅度的更新与重组，力图展现一个整体的大模型技术框架和路线图。本书适用于具有深度学习基础的高年级本科生以及低年级研究生使用，可以作为一本入门级的技术书籍。

在准备中文书的过程中，我们广泛阅读了现有的经典论文、相关代码和教材，从中提炼出核心概念、主流算法与模型，并进行了系统性的组织与介绍。我们对于每个章节的内容初稿都进行了多次修正，力求表达的清晰性与准确性。然而，在书写过程中，我们深感自身能力与知识的局限性，尽管已经付出了极大的努力，但难免会有遗漏或不当之处。本书的初版仅是一个起点，我们计划在网上持续进行内容的更新和完善，并特别欢迎读者提出宝贵的批评与建议，也会同步在网站上对于提出宝贵建议的读者进行致谢。我们将编写此书的过程当做一个自身的学习过程，也希望能够通过本书与读者进行深入交流，向更多的行业同行学习。

总之，大模型技术正处于快速发展阶段，基础原理亟待探索、关键技术亟待改善。对于科研人员而言，大模型研究工作充满了想象空间，令人为之神往。随着技术的不断进步与共享开放，我们有理由相信，未来人工智能技术将取得更大的进展，将在更多领域带来更为深远的影响。

配套资源

LLMBox：代码库

LLMBox是一个全面的代码工具库，专门用于开发和实现大语言模型，其基于统一化的训练流程和全面的模型评估框架。LLMBox旨在成为训练和利用大语言模型的一站式解决方案，其内部集成了大量实用的功能，实现了训练和利用阶段高度的灵活性和效率。

YuLan大模型：代码库

YuLan系列模型是中国人民大学高瓴人工智能学院师生共同开发的支持聊天的大语言模型（名字"玉兰"取自中国人民大学校花）。最新版本从头完成了整个预训练过程，并采用课程学习技术基于中英文双语数据进行有监督微调，包括高质量指令和人类偏好数据。

《大语言模型》下载地址:

关注微信公众号 datayx 然后回复大语言模型即可获取。

机器学习算法AI大数据技术

搜索公众号添加： datanlp

麻辣排骨面

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
《大语言模型》PDF下载

2022 年底，ChatGPT 震撼上线，大语言模型技术迅速“席卷”了整个社会，人工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能，我们不禁要问：支撑这些模型的背后技术究竟是什么？这一问题无疑成为了众多科研人员的思考焦点。
复制链接

扫一扫