大型语言模型能力的分类

大型语言模型能力的分类

提出了一个详细的分类法,以指导寻找可以通过大型语言模型改进的商业用例。它还可以用于加深对这些文本生成模型在不同业务部门中引发的转变的理解。


img

语言模型的分类法(作者贡献)

引言

生成式人工智能,尤其是基础模型,在文本、图像、视频、音频和代码等多种形式上展示了卓越的能力。这些显著的进展源于在大量数据上进行自监督学习的巨型模型。

在文本领域,大型语言模型(LLM)展示了生成一致内容的能力,而监督微调(SFT)则使用指令根据上下文、示例和用户命令来引导文本生成。这被称为上下文窗口或提示。这个学习过程超越了初始条件,出现了网络未经专门训练的能力,这些能力无法从之前对较小模型的实验中预测到。

生成式人工智能现在正在各个行业中得到应用,这表明在所有行业中解锁数万亿美元的价值,并带来新的增长。它的应用在销售、营销、客户运营和软件开发方面尤为明显。没有一个领域不受这场革命的影响。有些评论家只谈论进化,但这是对我们以前拥有的和我们今天拥有的技术之间差距的误解。这些模型涵盖的活动是广泛而多样的,因此应用是无限的。我们过去只有专门用于特定任务的单一活动模型,现在我们拥有多种技能,而模型本身并没有改变。

波士顿咨询集团的一项研究表明:“当在工具的当前能力范围内使用 GPT-4 时,几乎所有参与者的表现都有所提高。那些在这个范围之外使用 GPT-4 的人的表现比那些没有使用该工具的人差。”这项研究揭示了一个悖论:人们对技术在可以带来实质性好处的领域持怀疑态度,而对技术能力不足的领域则过于自信。这使得更加重要的是理解这些技术在日常使用中的贡献。

尽管该研究侧重于使用模板进行内容生成(特别是构思),并强调需要对生成的结果进行挑战,但似乎有必要清楚地了解这些语言模型的使用范围和专业知识。然而,迄今为止,还没有一个分类法来定义这些语言模型的使用范围。

广义语言模型在撰写文本或源代码方面表现出色,这是它们的主要功能。另一方面,它们无法思考、提供事实性答案或推理(即使有一些技巧)、计划操作、进行数学运算,也不能直接使用外部工具,如从互联网或数据库中获取信息。对于最后一种功能,某些界面似乎显示模型能够执行这些操作,尽管这些过程是由模型外部的程序进行的。

提出的分类法

牛津词典将分类法定义为“一种将事物命名和组织起来的系统,尤其是将植物和动物等分为具有相似特征的群体”。应该补充说明,这个列表是按照依赖关系对类别和子类别进行层次化排序的。这个列表通常以树的形式表示,根部的类别最为概括,分支越往下,主题越具体。

分类法 - 维基百科

分类法是分类或分类的实践和科学。分类法(或分类学分类)是…

en.wikipedia.org

对主要语言模型能力的分类法包括以下六个一般类别:

  1. 生成,可以用一个或多个句子来完成文本的开头,
  2. 提取信息,从文本或文本集合中提取一个或多个词语,
  3. 分类,用一个或多个类别或类别对文本或文本集合进行标记,
  4. 文本转换,涉及更改一个或多个句子的全部或部分内容,
  5. 问题解决,涉及解决问题,以及
  6. 文本理解,涉及阅读和理解给定文本段落,然后根据该段落回答问题。

让我们来看看这些广泛的类别。

1. 生成

生成文本(更准确地说,代表单词或单词部分的标记)或源代码是语言模型的主要功能。这是模型接受训练的功能,用于生成可理解、格式良好且与人类编写的文本无法区分的文本。

在自然语言处理(NLP)中,这个功能被称为自然语言生成(NLG)。这个主要能力用于完成文章的开头、起草小说、电子邮件、继续列举想法(构思)等等。由于模型也接受代码的训练,它们可以通过完成源代码来生成不同编程语言的代码行。例如,可以使用它来编写 Java 中的程序测试函数。

下一个标记预测能力有很多用途。它可以用于帮助完成在文本编辑器、手机(短信)或搜索引擎中编写的文本。它还可以用于纠正语音转文本的转录错误,或者填充填空文本(例如在知识测试中使用)。

文本生成是最广泛使用的实际用例,但是在 2023 年,通过指令生成句子(提示)使 ChatGPT 取得了成功。有数百种用例、数百种关于提示的培训课程,以及数百篇关于如何通过 ChatGPT 成为百万富翁的文章。此后,用例列表大大增加:从生成电子邮件或诗歌到列举演示文稿的想法,再到编写产品说明书。

总之,LLM 的生成能力用于:

  • 最佳下一个标记预测:确定在一系列标记后面跟随的最佳标记。
  • 在文本中补全单词:在文本的末尾添加单词。
  • 基于提示生成短语:根据指令生成文本、列表或源代码。

2. 提取

信息提取包括从文本或文本集合中提取一个或多个词语,并将其隔离和突出显示。

文本分析中的一个最基本的操作是句子分割。这涉及将段落或文本分成许多句子。每个句子以大写字母开头,以句号结尾。然后,可以逐个处理每个句子。

img

使用 ChatGPT 进行句子分割(来源:维基百科分类法文本 — 推理:OpenAI)

句子通常由许多在理解上没有太大作用的词组成,这些词会通过稀释信息来干扰内容分析。我们称之为停用词。自动关键词提取可以发现句子中的相关表达式或术语,即最重要的词语。然后可以将这些词用于网页引用或索引。在一种方法中,将这些词组织成主题可以帮助识别文本的主要主题,从而有助于对其进行分类。这被称为从文本中提取概念或主题。

某些词或词组可以被归为称为命名实体识别(NER)的类别。通过这种方式,模型被要求从文本中提取一个或多个类别的词语,并指示词或词语及其分类。对于命名这些类别没有普遍标准,但它们包括组织机构、地点(地址、城镇…)、人物、金额、百分比、时间和日期元素以及车辆类型等。这种方法的优点是,模型似乎在提取不同类别的能力上没有限制,而较小的模型则受到其驱动器的限制。

img

命名实体识别示例(文本来源:Larry Elliott 在 The Guardian 中 — 推理:OpenAI / ChatGPT)

最后,在最常见的提取中,有将实体链接在一起的提取。这是语义关系的提取,它指示句子中两个实体之间的链接。这个链接对应于主谓关系,并用于创建知识图谱。

img
总结一下,LLM的提取能力包括:

  • 句子分割:将文本分割成完整的句子。
  • 关键词提取:发现文本中最重要的词语。
  • 概念提取/主题建模:从文本中恢复关键的相关主题。
  • 命名实体提取:提取与某个类别相对应的词语。
  • 语义关系提取:识别并提取文本中不同实体之间的语义链接或显著关联。

3. 分类

分类涉及将文本或一组文本的全部或部分标记为一个或多个类别。一个类别可以是文本的语言、句子的意图、段落中表达的情感或情绪、讽刺、反讽或是否存在否定。

语言识别是指在LLM基于检测指令的情况下指示文本或文档中使用的语言的场景。

img

识别文本的语言(来源:Carlos Moedas in Corrieo da Manhã — 推理:OpenAI / ChatGPT)

检测请求的意图是理解请求的整体含义的重要特征。意图用于“全局”对请求进行分类,以便将其定向到正确的处理过程。

句子“我的银行卡被盗了。我需要一张新的”被分类为renewal_cb,并触发相应的处理。要确定具体的类别,需要向模型提供确定的示例和类别的解释。最常见的用例是定向对话助手,它在触发解锁用户之前确定用户的意图,然后提取所有必要的信息。

语言模型在提取情感和情绪、检测讽刺和反讽以及判断句子是否否定方面表现出色。这些功能在这些领域的表现比它们的前身要好得多。情感分析确定评论是积极的、中立的还是消极的。这种能力用于评估社交网络上的评论、与支持团队的对话或电子邮件中的意见,特别是用于排序优先级和处理紧急情况。营销团队可以评估竞争对手产品的评论或实时评估广告活动的影响。

情感分析是提取评论观点的最全面的方法。在检测情感和讽刺方面,通常需要比仅仅判断评论是否具有积极或消极情感更进一步。情感检测是一种提取更多信息、更多种类的微妙和复杂情感的方法,特别是如果目标是创建具有共情能力的助手。能够以比仅仅积极或消极的感觉更精细的方式做出反应非常重要。主要列表包括六种基本情绪:愤怒、惊讶、厌恶、喜悦、恐惧和悲伤。但还有很多其他情绪,反映了人类的复杂性。

img

对亚马逊平台上留下的手机评论进行分析

能够以比仅仅积极或消极的感觉更精细的方式做出反应非常重要。主要列表包括六种基本情绪:愤怒、惊讶、厌恶、喜悦、恐惧和悲伤。但还有很多其他情绪,反映了人类的复杂性。检测句子是否否定的方向也是一个有趣的用例,因为传统的检测系统在处理这个方向时往往有困难。

最后,语义角色标注(SRL)涉及为句子中的单词分配语义含义,即“角色”。结果是谓词-论元结构的模型。它回答了一个问题:“谁对谁做了什么,在哪里?”

img

对句子进行语义角色标注

总结一下,LLM的分类能力包括:

  • 语言识别:确定文本的语言。
  • 意图检测:根据类别对请求进行分类。
  • 情感和情绪分析:指示句子是积极的还是消极的,并将其与人类情感相关联。
  • 检测讽刺和反讽:检测表达情感的文本中的讽刺。
  • 否定检测:识别文本中的否定线索。
  • 语义角色标注:为单词分配语义角色。

4. 转换

转换涉及修改一个词或一系列词在一个或多个句子中的形式。它包括纠正、操作、翻译、重写和压缩操作。

模型的能力使我们能够在单词级别上进行操作,并通过将整个句子放入上下文中执行纠正操作。这些纠正操作允许您要求模型纠正拼写、语法或标点错误。

标准化(规范化)等操作可以将数字、日期、缩写和缩写转换为纯文本,使它们对传统提取算法更易理解。其他操作涉及对文本内容的处理,可以通过添加新元素、替换文本的某些部分或删除对于特定目的而言不重要的信息来增加文本的内容。

img

从文本中删除信息的示例(来源:Wikipedia — OpenAI / ChatGPT)

文本翻译是将一种语言(源语言)的文本转换为另一种语言(目标语言)的过程,尽可能忠实地传达信息。在处理计算机语言时,也可以进行这种转换,使用专门训练的模型处理计算机语言的特定词汇,例如:Facebook AI Research的Code Llama,OpenAI的GPT4,BigCode的StarCoder或WizardLM的WizardCoder

img

翻译示例(OpenAI / ChatGPT)

改写是使用其他词语重新表述文本,同时保留原始含义的行为。改写可以有多种目的,例如避免抄袭、简化或澄清文本、将文本适应特定的受众或上下文,或者用同义词或修辞手法丰富文本。

摘要是一种综合,涉及抓住文本的含义,确定其结构和论点,并简明清晰地表达其要点。它是模型呈现的文本的简化和概括。大型模型的性能与专门训练的摘要模型相当。在零样本情况下,Davinci-instruct v2在CNN/Daily Mail和XSUM数据集上的忠实度、连贯性和相关性上几乎超过了所有Pegassus分数

img

使用OpenAI / ChatGPT的MapReduce方法对Gustave Eiffel的维基百科页面进行摘要

总结一下,LLM的转换能力包括:

  • 文本纠正:纠正拼写、语法和标点错误。
  • 文本操作:允许您通过添加、替换或删除信息来修改文本,例如标准化。文本增强是通过添加元素来改变句子的转换;文本替换是修改文本的某些部分;文本简化是删除对于特定目的而言不重要的信息。
  • 翻译:将文本翻译为另一种口头语言或编程语言(转译)。
  • 改写:重新表述文本,同时保留其原始含义。
  • 摘要:对文本进行综合。

5. 解决问题

解决问题的过程。解决是指解决问题、找到给定情况或挑战的解决方案的能力。

共指消解包括在文本中找到所有指向同一实体的表达式。例如,在句子“Mary bought a book and she read it”中,表达式“Mary”和“she”是共指的,因为它们指的是同一个人。同样,表达式“a book”和“it”是共指的,因为它们指的是同一个对象。这种解决方法可以将分散在整个文本中的信息联系起来,构建一个连贯的意义表示。
词义消歧是指确定每个上下文中单词的正确含义或意义。它涉及在给定上下文中确定单词的含义,尤其是当该单词可能有多个含义时。例如,在句子“摇滚乐队在酒吧演奏,低音非常强烈,导致玻璃杯摔落并破碎。”中,“bass”一词可以指音乐乐器或低频声音,“bar”可以指饮酒的地方或音乐符号。因此,需要提供额外的信息以使模型能够给出确定的答案。

img

句子中单词消歧的示例(推理:OpenAI/ChatGPT)

缺失元素分析旨在识别文本中缺失的元素。这些元素是指在文本中未明确提及但有意指的事物。缺失元素分析是识别和恢复文本中省略或缩写的单词或部分单词的任务。例如,在句子“I saw the film yesterday, it wasn’t bad.”中,“wasn’t”后面缺少了“not”一词。通过分析缺失的元素,可以恢复文本的完整和正确形式,使其更容易理解或翻译。

总之,LLM的解析能力包括:

  • 共指消解:在文本中找到指向同一实体的表达。这种解析包括指代、前指和后指的解析,但实体位置不同:前、后和外部。
  • 词义消歧:确定每个上下文中单词的正确含义或意义。
  • 缺失元素:识别和恢复文本中省略或缩写的单词或部分单词。

6. 理解

理解是指模型通过上下文窗口理解、吸收或理解呈现给它的文本的能力。这无疑是所有类别中最具争议的,它暗示了模型可以模拟人类思维的能力。

回答问题的能力涵盖了系统回答业务问题、维护问题以及任何需要在特定领域寻求帮助的人的问题的用例。

在理解问题并生成答案的整体能力中,从模型记录的数字生成直接答案是最自然的方法。它根据模型在各个训练阶段记录的数字生成对问题的直接答案。模型越大,它能够保留的信息越准确,但缺点是这些信息仅在训练的那一天(实际上是从互联网检索数据的那一天)是最新的,并且在不断变化的知识光下很快过时。然而,大多数信息仍然是稳定的(原则上),例如太阳系中的行星数量以及地球是圆的这一事实!

img

向OpenAI / ChatGPT提问有关常识的问题(无外部来源-大小缩小)

问题生成从文本中提取关键要素,将它们转化为问题,以确保对文本的含义已经理解。教师可以利用这种能力来帮助他们准备考试。在一定程度上,它可以通过提供问题来进行事实核查。

img

基于维基百科中Integral的一部分生成的问题示例(OpenAI / ChatGPT)

机器阅读理解(MRC)是检索增强生成(RAG)所使用的关键技能。RAG通过生成模型克服了数据新鲜度和访问企业知识的问题。因此,它有助于验证来源和减少幻觉。由于其易于实施,它是最近几个月中最广泛发表的原则。

位置检测涉及理解个体对某个主题、产品、服务或事件的态度和情感。它涉及检测说话者对给定命题的观点和判断。它可以类比为对评论者观点进行合格研究。

问题质量评估旨在开发用于回答主观问题的算法,以检查问题是否具有优秀的质量,或者是否需要修改。

自然语言推理包括确定一个“假设”是否为真(蕴涵)、假(矛盾)或不确定(中性),这是从一个“前提”(提出的命题)中进行的。

知识库的完善(通常以“主题”、“关系”和“对象”三元组的形式表示的一组关系事实的集合)是通过对已经存在于知识库中的信息进行推理来自动推断缺失的事实。这种能力也被称为链接预测。

img

使用OpenAI / ChatGPT进行新链接预测的示例

模型的推理能力与处方的概念相关,即基于初始条件为最佳选择提供建议的AI。处方分析不仅提供未来事件的预测,还提供可能影响这些事件的因素的指示。这些数据使分析师和决策者能够评估战略决策的后果,优化他们的决策过程。这涉及基于实时数据的知情决策、决策的影响(包括规划和资源选择的优化)以及回答有关预测、风险和需要考虑的情景的最复杂问题。

模型的推理能力可以细分为几个子活动。其中之一是常识推理。除了说它是所有人类共有的东西之外,对常识的确切定义并不存在。与常识相关的并没有相关的用例,而是期望模型具有将这种“常识”融入其推理能力的内在能力。

img

常识解析的示例(来源:CODAH — 推理:OpenAI / ChatGPT)

逻辑思维是使用逻辑原则得出结论或做出决策的过程。它涉及系统思考并应用逻辑规则来分析信息、评估论证并得出结论。

img

逻辑思维的示例(来源:ProofWriter — 推理:OpenAI / ChatGPT)

模型的响应通常是对模型的单次调用的结果,这并不总是有助于直接理解导致结论的过程。多跳推理通过一个结构反映问题的潜在逻辑结构的过程来执行多步推理,从而允许回顾性分析。*思维链(CoT)*是一种通过逐步响应示例引出复杂的多步推理的最新技术。

大型语言模型的最新进展在处理数学推理问题方面取得了重大突破。特别是OpenAI的GPT-4 Code Interpreter的最新版本(这是一个为ChatGPT Plus订户提供的插件,使AI能够执行代码和分析复杂数据)在困难的数学问题上表现出色。然而,当处理需要多个步骤并涉及各种数学概念的复杂数学问题时,它们可能会遇到困难。与数学家可以使用的许多推理方法(如归纳、演绎和荒谬)相比,很难知道哪些方法可以与模型一起使用。一些研究人员甚至生成代码来测试推理(基于代码的自我验证或CSV)。

img

应用于数学推理的多跳思维链的示例(OpenAI / ChatGPT)

然而,Takeshi Kojima等人的研究表明,尽管模型通常被认为是具有任务特定示例的优秀学习者,但他们表明,通过在每个答案之前添加“让我们逐步思考”,模型表现出良好的无需训练的推理能力。实验结果表明,他们的零射击-CoT在各种推理任务上明显优于零射击LLM。

img

应用于数学推理的无射击思维链的示例(OpenAI / ChatGPT)

总之,LLM的理解能力包括:

  • 回答问题:与回答相关的有几种能力,例如使用存储在参数中的知识回答关于领域的问题;从文本中生成问题;阅读理解传递给模型的信息(提示);位置检测,即检测说话者对给定命题(意见)的观点和判断;以及问题质量评估,旨在检查问题是否正确。
  • 自然语言推理:确定“假设”的值。
  • 知识完善:提供知识体系中缺失的事实或关系。

组合的示例

意见提取专注于识别、提取和理解文本中表达的意见、感受、情绪或判断。它涉及理解人们对某些主题、产品、服务或事件的态度和情感。如果意见与相关元素相辅相成,那么这个意见就更有趣。

为了完全理解一份通知,可以结合主要模型的不同能力方面,例如:

  1. 命名实体提取:识别表达意见的实体。这可以包括提取产品、品牌、人物或其他相关实体的名称。
  2. 情感分析:确定意见的极性,即它们是积极的、消极的还是中性的。分类还可以包括对意见相关情感的分类。
  3. 位置检测:判断意见的立场。
  4. 理解:理解表达意见的上下文和细微差别。这可能涉及考虑语气、讽刺、修辞手法和自然语言的其他方面,以便更准确地解释。

img

亚马逊客户反馈的分析(来源:亚马逊 — 推论:OpenAI / ChatGPT)

评估方法

没有评估就没有能力的验证。近年来,由于模型的性能不断提高以及这些数据集在训练中的使用,传统测试已经过时。这导致了评估者和希望在评估中取得良好位置的人之间的一种速度竞赛。迄今为止,有数百种评估方法(基准)用于评估大型语言模型的能力。

Mistral的研究论文中,他们使用以下评估集进行了对他们的新Mixtral模型的测试:

  • 常识推理(0-shot):HellaswagWinograndePIQA(物理交互:问题回答)、SIQA(社交智能问题回答)、OpenbookQAARC-Easy(AI2推理挑战)、ARC-Challenge、[CommonsenseQA](https://www.tau-nlp.sites.tau.ac.il/commonsenseqa)。
  • 世界知识(5-shot):NaturalQuestionsTriviaQA
  • 阅读理解(0-shot):BoolQ(布尔问题)和QuAC(上下文中的问题回答)。
  • 数学推理:GSM8K(8-shot)与maj@8和MATH(4-shot)与maj@4。
  • 代码生成:HumanEval(0-shot)和MBPP(3-shot — 大多数基本Python问题)。
  • 其他评估:MMLU(5-shot — 测量大规模多任务语言理解)、BBH(3-shot — BIG-Bench Hard)和AGIEval(3-5-shot,仅英语的多项选择问题 — 人工通用智能评估)。

在算术推理评估中,我们可以找到AddSubAQuAASDivGSM8KLilaMAWPSMultiArithSVAMPSingleEqSingleOp;在常识方面:CODAH(由人类拟合的常识数据集)、StrategyQAARCBoolQHotpotQAOpenBookQAPIQ;在符号方面:CoinFlipLastLetterConcatenationReverseList;在逻辑方面:ReClorLogiQAProofWriterFLD(形式逻辑推理)、FOLIO(一阶逻辑)。还有ALERT(将语言模型适应推理任务)、ARB(高级推理基准)、BIG-bench(超越模仿游戏基准)、CONDAQA(对比注释的否定问题答案数据集)和WikiWhy

有些数据集非常庞大,比如BIG-bench,由来自132个机构的450名作者贡献了204个任务。这些任务的主题各不相同,涵盖了语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等许多领域。

结论

本文详细介绍了主要语言模型的能力分类,提供了一个具有六个大类的层次结构。这种分类旨在引导研究朝着特定的商业用例发展。这一贡献有助于促进研究和开发,推动对这些强大生成型AI工具的更加明智的使用。

语言模型具有多样的能力,涵盖了广泛的语言功能。文本生成、信息提取、分类、转换、解决和理解都是这些模型展示其多功能性的领域。无论是生成自然语言、提取关键实体、分类文本、转换句子、解决复杂问题还是理解文本的深层含义,语言模型在许多应用中成为强大的工具。它们的应用范围从创造性写作到语义分析,从机器翻译到复杂问题解决,标志着语言人工智能领域的重大进展。

我们将密切关注这些模型的缺点,它们很容易产生幻觉,对问题提问方式敏感,并受到语言、性别和种族的偏见影响,尽管这种倾向并不详尽。在幻觉方面,我们还必须考虑到模型并不总是遵循给定的指令,这可能会扭曲输出的自动处理。关于幻觉类型的详尽列表,我建议阅读黄磊等人撰写的分类法:A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions。它们对提示攻击也非常敏感,这限制了它们在不受控制的环境中的使用。

对于人工通用智能(AGI)的追求是一个备受争议的焦点,也是美国许多领先高科技公司继续投资的原因。尽管在大型模型中发现了新兴能力,表明如果我们再努力一点,我们将在隧道尽头找到智能,但问题是否简单地变成了:“鹦鹉能思考吗?”

img

因此,问题仍然悬而未决…

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值