LLM 探秘:想要深入了解人工智能界的“新宠”大型语言模型(LLM)吗?本文将带你走进 LLM 的世界,从入门知识到实际应用,全方位解读这个充满魔力的“大模型”。我们将一起揭开 LLM 的神秘面纱,领略其在各个领域的独特魅力。无论你是初学者还是有一定基础的 AI 爱好者,这篇文章都将为你提供宝贵的知识和启发,让你的 AI 之旅更加精彩纷呈!快来加入我们,一起探索 LLM 的奥秘吧!
大师兄: 当我们提到 LLM 时,你最先想到的是什么?
三金哥: ChatGpt、混元、元宝、copilot、模型训练、RAG、LangChain、智能客服、智能 NPC、AGI、智能体?
大师兄: 随着 LLM 的发展,LLM 在我们日常的工作、学习和生活中扮演的角色越来越重要,上面的这些概念你肯定都听说过、了解过以及使用过,那么他们之间是怎样的关系呢。
三金哥: 每个都了解那么一点,要是要我把他们之间的关系给完全说清楚,又有那么一点模糊。
大师兄: 是的。所以,本着知其然要知其所以然的态度,想要梳理出来一个比较明确的知识图谱,我不仅系统性的学习了一些公司内的和 LLM 相关的文章,还查阅了一些外部资料,并且和 LLM 做了一些深入交流。试着梳理出这篇文章——LLM 的入门全貌:基础、应用与前景。
三金哥: 你这个叫法有点奇怪啊,入门还要有个全貌?
大师兄: 是啊,LLM 涉及面比较广,我们这篇又是篇科普类的文档,想了半天(大约12小时),觉得还是入门全貌这个标题比较契合。
三金哥: 好像听着也有那么一点道理,那我们走着?
01 LLM 基础知识
1.1 LLM 是什么
大师兄: 走着。我们先从 LLM 是什么开始吧。你觉得 LLM 是什么呢?
三金哥: 从字面意思来讲,LLM 是 Large Language Model 这三个单词的首字母缩写,意为大语言模型。问了 LLM 后,LLM 进一步告诉我:大型语言模型(LLM)是一种基于深度学习技术的自然语言处理工具,能理解和生成文本。通过大量语料库训练,LLM
在翻译、写作、对话等任务中展现出卓越的能力。常见的应用包括自动问答、生成文本、文本摘要等。由于其多模态特性,LLM
还可用于图像和音频处理,为多领域带来创新可能。大师兄: 士别三日当刮目相看,三金哥现在对 LLM 的使用已经非常熟练了。
三金哥: 我们要与时俱进嘛!我记得有句话是这么说的:周期可以对抗,但是时代的潮流不可对抗。能引领潮流是最好的,不能引领潮流,起码也要顺应潮流。
大师兄: 我们从你的回答中能够看到关于 LLM 是一种基于深度学习技术的自然语言处理(NLP)工具。我之前没有考虑过,但是最近仔细想想,觉得还比较有意思的一个问题:你有考虑过 LLM
和自然语言处理(NLP)工具的关系吗?
1.2 LLM 与 NLP 的关系 &LLM 的基本特点
1.2.1 LLM 与 NLP 到底啥关系
三金哥:这个还真有点难到我了。你能用一句我能听得懂的话来总结下 LLM 和 NLP 的关系吗?
大师兄:NLP 关注的是对自然语言的理解和处理,而 LLM 则是一种强大的模型范式,用于生成和理解自然语言文本,为各种 NLP 任务提供基础和支持。
三金哥:要不你还是展开说说,还是有点不太明白。
大师兄:那我们就分别从定义、目标来分别说明下 NLP 和 LLM。
-
从定义上:自然语言处理(NLP)是人工智能领域的一个子领域,专注于研究和开发使计算机能够理解、处理、生成自然语言文本的技术和方法。而大型语言模型(LLM)是一类基于深度学习的模型,旨在模拟和生成自然语言文本的模型。
-
从目标上:NLP 的主要目标是让计算机能够像人类一样理解和处理自然语言,包括语言的语法、语义、语用等方面。而 LLM 的主要目标是通过大规模的训练数据来学习自然语言的规律,并能够生成具有语义和语法正确性的文本。
1.2.2 LLM 对回答准确性的定义
三金哥:这么一说,把LLM叫做自然语言处理工具可能没有那么准确,LLM 更多的是理解和生成文本。不过,从你的回答上,我在思考一个很重要的问题:对于 LLM 来说,生成具有语义和语法正确性的文本是不是还不太够,生成的文本和问题如何对应上的?比如有下面的问答:
-
问题:2022年 NBA 总冠军是谁?
-
回答:“我认为这个意大利面,就应该拌42号混凝土,因为这个螺丝钉的长度很容易影响到挖掘机的扭矩”
-
单纯从语义和语法正确性貌似没有很大的问题,但是确并没有回答我的问题。
大师兄:你是怎么理解“语义正确”的,上面这句话语法上是没问题的,但从语义角度来看,这段话有些问题:
-
意大利面和混凝土:在现实生活中,这两者没有直接联系,意大利面是食品,混凝土是建筑材料,把它们结合在一起明显是不合理的。
-
螺丝钉和扭矩:虽然螺丝钉和扭矩在工程机械上是相关的,但是和意大利面拌混凝土这件事完全是两个不相干的领域。
-
因此,可以说这段话在语法上是正确的,但在语义上却是显得荒谬和不可理解的。虽然这段话在逻辑上没有意义,但在生成语法正确的文本时,只是做到了语法正确(syntax correctness),还需要做到语义合理(semantic plausibility)。
三金哥:哦,明白了,语义正确性是这个意思。那例子改下。
-
问题:”2022年 NBA 总冠军是谁“
-
回答:”我认为 PHP 是最好的编程语言,不接受反驳“
**大师兄:**这段对话从语法和语义上都是正确的,但是回答完全偏离了问题本身。一个理想的 LLM 模型除了语法和语义正确外,还应该具备的能力是:上下文匹配以及一致性。展开来说,就是回答要能准确对应提问的内容和主题并且回答应该与问题保持一致,不发生语义偏离或者逻辑断裂。
三金哥:你的解释非常的有道理,不过我还是有个疑问。就还是拿上面的问题来举例。
-
问题:“2022年NBA总冠军是谁”
-
回答:“2022年NBA总冠军是波士顿凯尔特人”
这个回答是错误的呀。
大师兄:非常好的例子。上面的回答除了语法和语义的正确性外,上下文匹配以及一致性也是没有问题的,但是这个回答有个致命的错误:和事实不符。众所周知:2022年 NBA 总冠军是金州勇士队!!!虽然2024年 NBA 总冠军是波士顿凯尔特人队,虽然2021年金州勇士队没有进季后赛,但是2022年 NBA 总冠军是金州勇士队。
三金哥:别激动!
大师兄:不好意思,上头了。从上面的例子我们也可以看出,一个 LLM 模型应该具备的必不可少的优秀品质是:确保信息的准确性。
三金哥:那么问题来了,LLM 模型是怎么保证回答的准确性的呢?
大师兄:好问题啊,三金哥你这么快就直指LLM的核心了。总结来说,LLM 通过下面几点来保证回答的正确性:数据训练、持续学习、上下文理解、多模态输入、人工审核、领域适应性。这里面每点展开都能讲一节课了,鉴于读者没付费,我就先不展开了。
三金哥:借用丞相一句台词:“从未见过如此厚颜无耻之人!”
1.3 LLM 的发展历史
大师兄:被你的意面拌混凝土给拉跑偏了,我们还是说回 LLM 的发展历程啊。如果说,在 LLM 的发展过程中有哪些重要的里程碑事件的话,2017年 Vaswani 等人提出了 Transformer 架构绝对是能算得上之一。
三金哥:没听说过。
大师兄:那你听说过,GPT(Generative Pretrained Transformer)和 BERT(Bidirectional Encoder Representations from Transformers)吗?
三金哥:GPT 肯定知道啊,BERT 看着眼熟。
大师兄:这两个词中的 T 就是 Transformer 架构。Transformer 架构是一种基于自注意力机制的神经网络结构,它完全颠覆了之前以循环神经网络(RNN)为主导的序列建模范式。Transformer 架构的出现,实现了并行计算和高效的上下文捕获,极大地提高了自然语言处理的性能。可以说,先有 Transformer,后有 GPT 以及 BERT。
三金哥:然后下一个里程碑事件是 ChatGpt 的发布了吗?
大师兄:是的,ChatGPT 是 GPT-3.5 的微调版本,本质上是一个通用聊天机器人。在2022年11月推出,推出后仅仅两个月,就达到月活过亿。怎么形容 ChatGpt 的发布呢,我觉得“横空出世”这个词比较合适。