【阅读记录-章节1】Build a Large Language Model (From Scratch)

weixin_44329069

已于 2024-12-25 15:07:22 修改

阅读量1.6k

点赞数 26

分类专栏： Build a Large Language Model 文章标签：语言模型人工智能自然语言处理

于 2024-11-14 14:45:59 首次发布

本文链接：https://blog.csdn.net/weixin_44329069/article/details/143760411

版权

系列文章目录

【阅读记录-章节1】Build a Large Language Model (From Scratch)
【阅读记录-章节2】Build a Large Language Model (From Scratch)
【阅读记录-章节3】Build a Large Language Model (From Scratch)
【阅读记录-章节4】Build a Large Language Model (From Scratch)
【阅读记录-章节5】Build a Large Language Model (From Scratch)
【阅读记录-章节6】Build a Large Language Model (From Scratch)
【阅读记录-章节7】Build a Large Language Model (From Scratch)

1. Understanding large language models

大语言模型（LLMs） 如ChatGPT，依托深度学习和transformer架构，能够在多种自然语言处理（NLP）任务中表现出色，尤其是在理解、生成和处理复杂语言方面。

与传统的NLP模型不同，LLMs不仅能够完成如文本分类和翻译等特定任务，还能处理更具挑战性的任务，如解析复杂指令和生成连贯的原创文本。这些模型的成功得益于大规模文本数据的训练和transformer架构的应用，使它们能够捕捉语言中的深层次语境和细节。

正是这种技术进步，推动了NLP领域的变革，使得我们能够使用更强大的工具与人类语言进行互动。接下来的讨论将基于transformer架构，逐步实现一个类似ChatGPT的LLM，帮助理解LLMs的工作原理。

1.1 What is an LLM?

LLM（Large Language Model）是一种神经网络，旨在理解、生成和回应类人文本。这些模型通常是深度神经网络，经过大量文本数据的训练，数据量通常覆盖了互联网上的公共文本。

"Large"的含义：大语言模型中的“large”指的是两个方面：
1. 模型大小：通常这些模型拥有数十亿甚至数百亿个参数。参数是模型在训练过程中需要优化的权重，用来预测文本中的下一个单词。
2. 训练数据集的规模：这些模型训练所使用的数据集通常非常庞大，包括了互联网上的海量文本。
训练目标：大语言模型的核心任务之一是“下一个词预测”。这是因为语言本身具有序列性，模型通过学习上下文、结构和文本之间的关系来理解语言。因此，尽管“下一个词预测”看似是一个简单任务，但它却能生成非常强大的模型。

LLM通常使用Transformer架构，这是当前自然语言处理领域最流行的架构之一。Transformer的关键特点是它能够在生成文本时选择性地关注输入文本的不同部分，从而帮助模型更好地理解语言的细微差别。

Transformer的优点是它能并行处理输入序列中的所有部分，而不是像传统的循环神经网络（RNN）那样逐步处理，从而加速训练和提高性能。

LLM常被视为 生成性人工智能（Generative AI, GenAI） 的一种形式。生成性AI指的是利用深度神经网络创造新的内容，比如文本、图像或其他媒体形式。LLM的目标是生成与人类语言相似的文本，因此它也属于生成性人工智能的范畴。
正如这幅展示不同领域关系的层次结构图所示，大语言模型（LLM）代表了深度学习技术的具体应用，利用其处理和生成类人文本的能力。深度学习是机器学习的一个专门分支，专注于使用多层神经网络。机器学习和深度学习是两个旨在实现使计算机从数据中学习并执行通常需要人类智能的任务的算法领域。