大语言模型的出现为科研人员再次带来了实现通用人工智能的曙光。尽管通用人工智能在学术界被广泛讨论与探索,但是之前的机器学习算法的泛化性和通用性非常局限,只有大语言模型初步实现了通过统一形式来解决各种下游任务。
下面将简要介绍一下大语言模型的主要能力特点,特别是针对传统模型不具备的性能优势进行讨论。
具有较为丰富的世界知识
与传统机器学习模型相比,大语言模型经过超大规模文本数据的预训练后能够学习到较为丰富的世界知识。实际上,最早期的专家系统也是希望能够通过设计基于知识库与知识表示的推理引擎系统,进而解决特定领域的应用任务。然而,当时所采用的技术路径主要是基于逻辑、规则以及初期的机器学习算法,系统能力还比较局限,无法充分建模以及利用世界知识信息。尽管早期的预训练模型(如 BERT、GPT-1 等)也是基于相似的预训练思路,但是模型参数规模与数据规模都相对较小,无法充分学习到海量的世界知识。因此,之前的预训练语言模型需要使用微调为主要手段来解决下游任务。
具有较强的通用任务解决能力
大语言模型第二个代表性的能力特点是具有较强的通用任务求解能力。大语言模型主要通过预测下一个词元的预训练任务进行学习,虽然并没有针对特定的下游任务进行优化,却能够建立远强于传统模型的通用任务求解能力。实际上,基于大规模无标注文本的下一个词元预测任务本质上可以看作一个多任务学习过程,因为针对不同词元的预测任务可能涉及到情感分类、数值计算、知识推理等非常多样的训练任务。由于具有通用的任务求解能力,大语言模型深刻地影响了很多研究领域的科研范式。例如,在自然语言处理领域,很多传统任务(如摘要、翻译等)都可以采用基于大语言模型的提示学习方法进行解决,而且能够获得较好的任务效果,早期任务特定的解决方案已经被逐步替代。
具有较好的复杂任务推理能力
除了具有通用性外,大语言模型在复杂任务中还展现出了较好的推理能力。例如,大语言模型能够回答知识关系复杂的推理问题 ,还可以解决涉及复杂数学推理过程的数学题目。在这些任务中,传统方法的性能相对较差,为了提升与其相关的特定能力,往往需要针对性地修改模型架构或者使用特定训练数据进行学习。相比之下,大语言模型在大规模文本数据预训练后,能够展现出比传统模型更强的综合推理能力。尽管有些研究工作认为大语言模型不具备真正的推理能力,而是通过“记忆”数据模式来进行任务求解,但在许多复杂应用场景中,大语言模型展现出了令人震撼的推理性能,这种现象很难完全通过数据模式的记忆与组合来进行解释。
具有较强的人类指令遵循能力
大语言模型建立了自然语言形式的统一任务解决模式:任务输入与执行结果均通过自然语言进行表达。通过预训练与微调两个阶段的学习,大语言模型具备了较好的人类指令遵循能力,能够直接通过自然语言描述下达任务指令(又称为“提示学习”)。在早期的对话系统中,指令遵循就是一个受到广泛关注的研究方向。然而,传统模型缺乏通用的任务理解与执行能力,仍然需要依赖人工规则或者先验信息辅助指令理解模块的设计与训练。由于具有较强的指令遵循能力,大语言模型为人机交互提供了一种自然的、通用的技术路径,这对于打造很多以人为中心的应用服务(如智能音箱、信息助手等)具有重要的意义。
具有较好的人类对齐能力
机器学习模型的安全性一直以来是一个重要的研究课题。然而,传统模型的智能性、通用性相对较弱,很多科研学者对于模型安全性的关注程度通常远低于对于提升模型性能的关注。随着大语言模型的出现,由于其具有出色的模型性能,如果不进行有效的对齐与监管,将可能带来非常严重的后果。目前广泛采用的对齐方式是基于人类反馈的强化学习技术,通过强化学习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用,都能够有效阻止典型的模型功能滥用行为,一定程度上规避了常见的使用风险。
具有可拓展的工具使用能力
在机器学习领域,模型的设计和实现往往都具有一定的局限性,例如会受到所采用的归纳假设以及训练数据的限制。同样地,大语言模型的能力也具有一定的局限性。例如,它仍然无法有效回答涉及到预训练数据时间范围之外的问题,并且对于数学中的数值计算问题也表现不佳。作为解决方案,由于大语言模型具有较为通用的任务求解形式,可以通过微调、上下文学习等方式掌握外部工具的使用,如搜索引擎与计算器。实际上,世界上最会使用工具的智能体就是人类,人类不断发明新的技术与工具,拓展自己的认知与能力边界。工具学习实际上就是借鉴了这一思路,通过具有特殊功能的工具来加强大语言模型的能力。然而,工具的有效使用对于模型的任务理解能力和推理能力有着较高的要求,因此传统模型以及没有经过特殊微调的大语言模型往往不能很好地使用丰富的工具库。目前最先进的大语言模型如GPT-4等能够支持多种工具的使用,从而极大地提升了模型的任务解决能力。
除了上述主要的能力特点外,大语言模型还能够展现出很多其他重要能力,如长程对话的语义一致性、对于新任务的快速适配、对于人类行为的准确模拟等。
注:本文内容来自《大语言模型》一书,想进一步了解,可阅读本书。