Information extraction(keywords extraction,关键词抽取)—对关键词提取进行验证,细节理解和原文阅读:Automated Annotation of

Automated Annotation of Scientific Texts for ML-based Keyphrase Extraction and Validation

为基于 ML 的关键词提取和验证自动注释科学文本

其实就是通过远程监督的方式来获取真实的标签数据,以用于对关键词抽取的结果进行验证,本文只是一种验证方法

paper : https://arxiv.org/abs/2311.05042

1.背景动机

介绍现有方案的缺陷:

文本标注过程的自动化是必要的;开发自动文本标注技术对加速科学创新至关重要。但是,现有技术本身不创建基线标签,而是从 ML 算法提供的有限集合中进行选择,从而隐含了对 ML 生成的关键词质量的假设。因此,它们对关键词质量的评估通常较差。基于预训练语言模型的人工智能数据增强技术在文本标注和分类方面大有可为;然而,这些技术计算成本高、数据密集,而且并不总能考虑到科学文本的特定领域性质。

介绍本文文本标签自动化的方法:

科学成果往往相互关联;例如,最终出现在出版物中的研究成果往往最初是研究提案、技术报告或论文。利用这些现有artifacts之间的联系,可以提供潜在的丰富信息来源。此外,科学artifacts的关键词和搜索条件通常是受控词汇或语言中的描述性术语-在相关研究领域内普遍接受的特定领域的单词或短语。对于大多数科学领域来说,这些受控词汇可以在本体中找到。

本体是由精心定义的术语组成的系统,它提供了关于某一主题领域内的实体或概念如何相互关联的信息,是特定领域知识的良好来源。

介绍两种半自动化技术:

在本文中,提出了两种半自动化技术,用于生成文本标签以验证 ML 关键字,从而增强搜索效果。

  • 第一种方法称为 “事实链接”(arti-fact linking),其基础是利用与同一研究相关的不同类型数据人工制品之间的关系。
  • 第二种方法探索了从受控领域特定词汇表(如本体)中为未标注文本分配标签的概念。该技术利用了这样一个事实,即与科学文本最相关的文本标签将包含特定领域的语言,这些语言将出现在与该领域相关的本体中。

2.Model

SciKey:

SciKey是一个针对特定领域的模块化关键词提取管道,它结合了不同的 NLP 提取技术,可从科学数据集中自动生成关键词和关键短语。SciKey的三个子模块的简化表示:预处理、关键词提取和关键词评估

预处理模块准备原始输入数据,以便进行 NLP 输入:科学文本通常包含特定领域的非标准文本信息,如缩写和首字母缩略词,以及非文本信息,如数字和标点符号。预处理步骤包含以下子模块:1)去除虚词;2)命名实体识别;3)文本清理

关键词提取模块通过自然语言处理从经过净化的文本中生成关键词:**SciKey 提供了一套用于 NLP 关键字提取的无监督学习算法,包括 TextRank、RAKE 和 YAKE **。该模块的输出是一组未经验证的机器生成关键词。

所有关键词生成解决方案的最后一步都是评估 ML 生成关键词的质量SciKey 管道的关键词评估组件通过与一组提供的基本事实(即标签)进行比较,计算关键词提取阶段生成的 NLP 关键词质量的量化指标。SciKey 为关键词提取验证提供了多种信息检索技术,包括精确匹配、部分匹配和余弦相似性。

1.文本预处理:

考虑到文本中与文档相关的信息不包含任何有语义价值的信息,只会给 NLP 流程带来噪音。因此,在标签生成过程中,只考虑包含语义信息的字段;

2.Automated Label Generation,自动标签生成:

本文采用了两种半自动化技术来生成高质量的文本标签,用于验证人工智能生成的关键词:人工链接和本体。

2.1.Artifact linkages,人工链接:

将未标记的Artifact与具有已知标签的直接相关人工制品链接起来,可以提供一组衍生标签。

与链接出版物相关的关键词都是从三个在线资源中自动筛选出来的:

  • 来自 Web of Science的作者关键词字段,这是一个由出版物作者选择的关键词集合;
  • PubMed的关键词字段,也是作者定义的出版物关键词集合;以及
  • PubMed 的 MeSH 术语字段,这是一个受控词汇(医学主题词表)集合,由训练有素的索引员按主题对文章进行标注。

2.2.Ontology-based text annotation,急于本体的文本注释:

使用专家编辑的本体对提案进行标注,并在每个未标注的提案中识别出能代表所探讨的观点和主题的单词/短语。通过两个阶段的流程使用本体识别潜在的元数据:

  1. 识别与领域相关的短语和关键词。
  2. 对识别出的单词和短语进行重要性排序,以确定建议标签。

识别相关短语:提案等书面文本通常由通用和特定领域的单词和短语混合而成。这一步的目标是根据具有领域知识的专家所整理的信息,为每份提案确定所有候选标签列表。

排除短词:少于三个字符的词将从匹配词列表中删除。这一规则的实施不会影响缩略词,因此 DNA 和 SOB(硫氧化细菌)等重要关键词得以保留。短词删除是生成本体匹配后的一个后处理步骤。

本体比较的排序和筛选: 上述本体搜索过程的输出是每个文档的丰富词库。但是,返回的单词和短语没有经过排序,也没有相关的分数来反映不同单词的相对重要性。因此,需要设计一种对提取的标签进行排序的方法。为此,采用了文档频率 (DF),这是一种衡量短语在给定语料库中罕见程度的方法。任何短语 w 的 DF 值为
D F ( w ) = 包含术语的文档数 w 语料库中的文档总数 \mathit{DF}(w)=\frac{{包含术语的文档数}w}{{语料库中的文档总数}} DF(w)=语料库中的文档总数包含术语的文档数w
根据这一指标,一个词越独特,它就越重要。词频与词值成反比,唯一性则代表重要性。

SciKey Configuration for NLP keyphrase Extraction and Evaluation:

自动标签生成过程的总体目标是为验证 NLP 算法的 ML 生成关键词提供基本真实标签。ML 关键词生成和验证过程是通过 SciKey 管道完成的

3.整体流程:

预处理: 首先,对文本准备步骤中的文本进行预处理,以便进行 NLP 输入。使用基于 Regex 的方法去除标点符号、URL、数字和引文。我们采用了命名实体识别(NER)技术和专家自定义列表来处理非标准科学词汇和概念。净化后的文本被传送到关键词提取模块。

关键词提取: 选择了 YAKE NLP 算法;GitHub上提供了开源 Python 实现。虽然 SciKey 提供了其他可用于关键字提取的无监督学习算法,YAKE 会返回为每个提案提取的关键词。这些关键词被转发给 ScienceSearch 管道的关键词评估组件。

关键词评估: 在此使用 SciKey 管道的keyword evaluation 组件对上一阶段由 ML 生成的关键词的质量进行评估。关键词评估模块有两个输入:

  1. 机器生成的关键词列表(由 SciKey 的关键词提取子模块生成),以及
  2. 用于与 ML 标签进行比较的派生或基本真实标签列表(由本文的人工链接或基于本体的文本注释技术生成)。

本文采用精确匹配法,将 ML 生成的关键词与衍生标签进行比较,以实现精确的字符串匹配。在定量评估方面,采用了精确度、召回率和 F-1

"正确匹配 "是指 ML 生成的关键词也能在派生标签列表中找到。我们使用 NLTK 的 PorterStemmer4对 ML 和派生标签进行词干处理,以消除虚假的不匹配。我们为排名前 N N N(按 YAKE)的关键词生成指标, N N N可为 5、10 或 20。

原文阅读

Abstract

先进的分子生物学技术和设施每天都会产生大量宝贵的数据;然而,这些数据往往缺乏研究人员有效查找和搜索所需的基本元数据。元数据的缺乏给这些数据集的利用带来了巨大挑战。基于机器学习的元数据提取技术已成为一种潜在的可行方法,可自动为科学数据集标注有效搜索所需的元数据。文本标注通常由人工完成,在验证机器提取的元数据方面起着至关重要的作用。然而,人工标注既费时又不一定可行;因此,有必要开发自动文本标注技术,以加快科学创新的进程。这一需求在环境基因组学和微生物组科学等领域尤为迫切,这些领域在元数据整理和创建黄金标准文本挖掘数据集方面历来受到的关注较少。

在本文中,我们介绍了两种新颖的自动文本标注方法,用于验证人工智能生成的未标注文本元数据,具体应用于环境基因组学。我们的技术展示了利用未标注文本和科学领域现有信息的两种新方法的潜力。第一种技术是利用与同一研究相关的不同类型数据源之间的关系,如出版物和提案第二种技术是利用特定领域的受控词汇表或本体。在本文中,我们详细介绍了在环境基因组学研究中应用这些方法对人工智能生成的元数据进行验证的情况。我们的研究结果表明,所提出的标签分配方法既能为无标签文本生成通用的文本标签,也能生成高度特定的文本标签,其中高达 44% 的标签与人工智能关键词提取算法所建议的标签相匹配。

关键词:自动文本标注、关键词提取、元数据生成、自然语言处理、本体、文本挖掘

1 Introduction

介绍元数据提取技术的背景以及现有的缺陷:

在这里插入图片描述

基因组测序等高通量全息技术在人类健康、生物监测和环境微生物生态学等领域产生了大量数据。然而,这些数据往往缺乏科学家搜索、整合和适当解释这些数据所需的元数据。人工标注既费时又容易出错,而且由于缺乏黄金标准训练集而变得更加困难,尤其是在环境科学等领域。对于为科学人工制品(如文档和图像)自动标注有效搜索所需的元数据这一挑战,基于机器学习(ML)的元数据提取技术已成为一种潜在的解决方案[1, 2]。然而,这些基于 ML 的方法依赖于文本标签的存在,用于训练模型(有监督方法)或验证 ML 生成的元数据(无监督方法)。因此,要将这些方法应用于无标签的科学文本,就必须在确定任何 ML 生成的关键字的质量之前为文档分配文本标签(图 1)。这可能具有挑战性,因为文本标注在很大程度上仍然是一个人工过程;它乏味、耗时、往往成本高昂,而且并不总是可行的[3]。生物医学界已经产生了许多高质量的注释语料库,如 CRAFT [4],但这些语料库并没有涵盖环境基因组学中的许多相关概念,从测序方法到微生物类群和环境概念,如全球生物地球化学通量、环境污染等。

介绍现有方案的缺陷:

文本标注过程的自动化是必要的;开发自动文本标注技术对加速科学创新至关重要。图 1 介绍了对人工智能生成的关键词进行自动验证的一些潜在方法。仅根据启发式或统计规则验证文本标签的天真技术易于快速实施,而且只需要将训练文本作为输入。但是,这些技术本身不创建基线标签,而是从 ML 算法提供的有限集合中进行选择,从而隐含了对 ML 生成的关键词质量的假设。因此,它们对关键词质量的评估通常较差。个性化脚本可能在个别案例中效果很好;但是,这种本地化脚本往往是不可转移的,通常无法扩展到类似案例或问题中。基于预训练语言模型的人工智能数据增强技术在文本标注和分类方面大有可为[5, 6];然而,这些技术计算成本高、数据密集[7],而且并不总能考虑到科学文本的特定领域性质。

介绍本文文本标签自动化的方法:

我们关于文本标签自动化的想法受到了科研和用户设施中科学文本、数据和搜索性质的启发。科学成果往往相互关联;例如,最终出现在出版物中的研究成果往往最初是研究提案、技术报告或论文。利用这些现有人工制品之间的联系,可以提供潜在的丰富信息来源。此外,科学人工制品的关键词和搜索条件通常是受控词汇或语言中的描述性术语–在相关研究领域内普遍接受的特定领域的单词或短语。对于大多数科学领域来说,这些受控词汇可以在本体中找到。本体是由精心定义的术语组成的系统,它提供了关于某一主题领域内的实体或概念如何相互关联的信息[8],是特定领域知识的良好来源。

介绍两种半自动化技术:

在本文中,我们提出了两种半自动化技术,用于生成文本标签以验证 ML 关键字,从而增强搜索效果。

  • 第一种方法称为 “事实链接”(arti-fact linking),其基础是利用与同一研究相关的不同类型数据人工制品之间的关系。建立人工智能事实之间的直接关系非常强大,因为它可以在相关的已标注和未标注人工智能事实之间转移文本标签,使其成为丰富的元数据源。
  • 第二种方法探索了从受控领域特定词汇表(如本体)中为未标注文本分配标签的概念。该技术利用了这样一个事实,即与科学文本最相关的文本标签将包含特定领域的语言,这些语言将出现在与该领域相关的本体中。通过本体确定未标注文本中与特定领域相关的单词和短语,并采用基于频率的方法为文本分配关键词。

在本文中,我们提出了新颖的非人类、非人工智能技术,用于验证人工智能生成的无标签文本元数据,例如提案(对假设驱动的研究提案的叙述性描述)。此外,我们还将部分现有词汇表和本体(主要来自开放生物本体(OBO)库[9])编译成一个名为 BERO(生物与环境资源本体)的新型应用本体,用于环境基因组学等应用。

联合基因组研究所(Joint Genome Institute,JGI)是美国能源部的一个用户设施,提供综合的高通量测序、DNA 设计与合成、代谢组学和计算分析,以推进基因组学研究,重点是阐明环境系统以及植物、微生物在这些环境系统中的作用。JGI 为科研人员提供基因组测序能力和设备,这些能力和设备在世界上只有少数几个研究中心拥有,因此会产生许多标记和未标记的数据。为 JGI 的非标签数据工件开发半自动文本标签技术将增强其搜索和索引能力,从而有可能加速基因组学研究的科学发现。虽然所介绍的技术是在基因组学的特定背景下展示的,但这些技术具有通用性,可应用于其他科学领域。我们的半自动文本标注技术从两个方面推动了关键词提取技术的发展。

  • 我们开发了计算成本低廉的非人工、非机器标注方法,用于验证人工智能生成的未标注文本关键词,消除了标签/关键词缺失的瓶颈,而这正是高精度提取相关关键词的主要挑战之一[11]。

  • 我们的方法主要利用真实可用的公共(人类)知识,如相关科学著作和受控词汇表。这样做有几个好处,包括特别适合处理和利用科学文本的特定领域性质。

本文接下来的内容安排如下:第 2 节提供了重要的背景信息。第 3 节介绍了我们的自动标签生成框架,并详细介绍了我们提出的两种自动标签生成方法。它还介绍了所采用的基于 ML 的关键词评估方法,以及有关标签排序和超参数优化的其他一些决策信息。第 4 节介绍并讨论了我们提出的方法所获得的结果,第 5 节讨论了对所提出的结果和方法的一些重要看法。最后,我们将在第 6 节中对相关工作进行回顾。

2 Background

我们开发了文本标签方法,并将其集成到了用于自动生成元数据的 ScienceSearch 管道中。在本节中,我们首先概述了需要标签的无标签 JGI 数据工件是如何生成和存储的。然后,我们将简要介绍 ScienceSearch 基础架构 SciKey,以及我们的工作如何融入该框架。

2.1.JGI Data Generation and Management

JGI 提供的测序和计算分析能力产生了海量的标记和非标记数据。

使用 JGI 的设施首先要经过申请程序。申请者提交提案文件,其中包括拟议研究的细节和理由,提交的提案由领域专家科学家评估其科学意义和与能源部科学任务的相关性。获得批准的项目将样本送到 JGI,在那里对样本进行测序,并将处理后的结果反馈给研究人员。测序结果通常最终会以某种形式发表,可以是独立资源(如技术报告、论文),也可以是研究论文的一部分。

2.2.ScienceSearch

ScienceSearch[10]是一种通用的科学搜索基础设施,它利用机器学习(ML)从数据和周边人工制品中获取元数据。ScienceSearch 平台增强了多个科学领域的搜索能力,包括基因组学、地球科学和显微学。ScienceSearch 基础设施由四个主要部分组成:数据摄取、元数据提取、搜索引擎和用户反馈

2.3.SciKey

在这里插入图片描述

SciKey[12]是一个针对特定领域的模块化关键词提取管道,它结合了不同的 NLP 提取技术,可从科学数据集中自动生成关键词和关键短语。图 2 显示了组成 SciKey 的三个子模块的简化表示:预处理、关键词提取和关键词评估

预处理模块准备原始输入数据,以便进行 NLP 输入。科学文本通常包含特定领域的非标准文本信息,如缩写和首字母缩略词,以及非文本信息,如数字和标点符号。文本净化发生在文本准备步骤中:使用模式匹配方法(如 RegEx)删除非文本信息,同时使用命名实体识别(NER)技术和人工编辑的列表来处理非标准的科学词汇和概念。预处理步骤包含以下子模块:1)去除虚词;2)命名实体识别;3)文本清理

关键词提取模块通过自然语言处理从经过净化的文本中生成关键词。SciKey 提供了一套用于 NLP 关键字提取的无监督学习算法,包括 TextRank [13]、RAKE [14] 和 YAKE [11]。该模块的输出是一组未经验证的机器生成关键词。

所有关键词生成解决方案的最后一步都是评估 ML 生成关键词的质量SciKey 管道的关键词评估组件通过与一组提供的基本事实(即标签)进行比较,计算关键词提取阶段生成的 NLP 关键词质量的量化指标。SciKey 为关键词提取验证提供了多种信息检索技术,包括精确匹配、部分匹配和余弦相似性。

SciKey 已被证明能很好地处理有标签的数据集(可获得基本真实标签),管道中的每个模块都可进行特定领域的定制。然而,为了充分利用所有可用的科学信息,有必要将这些功能扩展到未标记的科学数据集,如提案和报告(在这些数据集中不存在地面实况标签)。本研究中开发的技术被集成到了 SciKey 管道(本研究中关键词提取步骤的关键组成部分)中,作为应对这一挑战的潜在解决方案。

3 Methodology

在这里插入图片描述

图 3 显示了我们的自动标签生成流程及其与 SciKey 管道的交互过程。

文本准备方法从原始输入数据中提取语义信息,并将其转换为适合进一步 NLP 处理的格式。自动标签生成组件从文本准备方法的处理输出中生成文本标签。该方法提供了两种生成文本标签的技术,它们利用了真实的、公开的(人类)知识,如相关科学著作和受控词汇表。最后,从自动标签生成步骤中生成的文本标签被传递到 SciKey 的关键词评估子模块,以评估 ML 生成的关键词的质量。Scikey 关键字评估的输出结果是一组量化指标分数,在与文本标签进行验证时可提供有关 ML 生成关键字质量的信息。值得注意的是,自动标签生成组件和前两个 SciKey 模块(预处理和关键词提取)可以并行运行。

3.1.Text Preparation

元数据提取过程的输入数据是一个原始、无标记的数据集,包含 2143 项已批准的基因组研究提案,以逗号分隔文本(.csv)的形式提供。该 .csv 文件包含 12 年内(2009-2020 年)建议利用 JGI 现有设施进行调查的所有研究的子集。如表 1 所示,建议文件包含 35 个元数据字段,主要以文本为主,只有一个数字字段(建议 ID)和三个日期时间字段(包含与建议提交和批准日期有关的元数据)。

元数据字段可分为两类信息:

  1. 包含提案文件相关信息的字段,如作者机构、提案周期和完成日期。
  2. 包含与实际建议研究相关的语义信息的字段,如工作描述、理由和社区兴趣。

虽然与文档相关的信息对出处和数据管理很有用,但它们不包含任何有语义价值的信息,只会给 NLP 流程带来噪音。因此,在标签生成过程中,我们只考虑包含语义信息的字段;只包含文档相关信息的字段(不包括提案 ID 字段)将被舍弃。在文本提取步骤中,我们从每个提案中识别并提取包含相关语义信息的列。在原始提案数据集中的 35 个字段中,我们发现有 8 个字段包含有关提案的有用语义信息:标题、描述、理由、社区兴趣、工作摘要、样品制备、利用和 DOE 任务字段。

这八个字段中包含的文本字符串被连接在一起,形成一个单一的文本字符串,用于流程的下一步。

3.2.Automated Label Generation

我们采用了两种半自动化技术来生成高质量的文本标签,用于验证人工智能生成的关键词:人工链接和本体。

3.2.1 Artifact linkages

在这里插入图片描述

将未标记的人工制品与具有已知标签的直接相关人工制品链接起来,可以提供一组衍生标签,将未标记的人工制品与之关联和/或存档。在我们的案例中,我们将未贴标签的提案与出版物记录进行了链接,每份提案都继承了可与之直接关联的出版物中的关键字。与出版物建立链接的一个好处是,由于出版物包含人工标签,因此作为标签转移到无标签文本的关键词自然包含了必要的语义知识。

图 4 展示了人工制品链接过程的示意图。在我们的使用案例中,工件链接是通过将提案列表与经过编辑的出版物列表进行交叉引用来实现的。在 JGI 的系统中,以 JGI 用户和个人为作者的出版物与产生特定出版物中使用的数据或材料的提案相链接。这些链接是通过自动分配和 JGI 工作人员手工整理相结合的方式建立的。提案和出版物通用的提案 ID 字段为我们提供了将这两类人工制品联系起来的方法。

通过将完整的提案集与 488 份 JGI 出版物清单进行交叉引用,我们在 184 份提案和 337 份出版物之间建立了直接链接。直接链接是通过匹配两类数据工件中唯一的提案 ID 字段创建的。这 184 项提案和相关出版物被视为 NLP 关键字提取模型的训练数据/子集。

对于每项提案,与链接出版物相关的关键词都是从三个在线资源中自动筛选出来的:

  • 来自 Web of Science1 的作者关键词字段,这是一个由出版物作者选择的关键词集合;
  • PubMed2 的关键词字段,也是作者定义的出版物关键词集合;以及
  • PubMed 的 MeSH 术语字段,这是一个受控词汇(医学主题词表)集合,由训练有素的索引员按主题对文章进行标注。

用户通常会根据文档内容中预期出现的词语来搜索文档。文档的重要关键词通常会出现在正文中;文档内容中没有的词不可能适合搜索和索引。因此,我们过滤掉了未出现在提案文本中的任何关键词。从这些来源获得的剩余关键词将被分配为相关提案的训练标签(以下称为出版物衍生标签)。

人工制品链接方法利用了人工制品之间的关系;它具有普遍适用性,可应用于以某种方 式在已标注和未标注人工制品之间建立联系的任何情况。这种联系可以是数字标签(如 ID、资助奖励编号)、字符串(如文件名),甚至是人工建立的(通过与研究人员的互动)。此外,在研究环境中,大多数无标签的人工制品(如建议书和论文)往往会导致出版物,这至少可以作为所有科学领域通用的一个公认标签来源。一般来说,不同类型的人工制品之间会有不同程度的关联,被关联人工制品的关联程度会影响关键词关联的强度和有效性。在我们的案例中,一项工作的提案与由此产生的出版物之间存在着明确而直接的联系,因此衍生出的标签大多具有较高的有效性。

3.2.2 Ontology-based text annotation

我们使用专家编辑的本体对提案进行标注,并在每个未标注的提案中识别出能代表所探讨的观点和主题的单词/短语。

图 5 显示了基于本体的标注过程的关键步骤。我们通过两个阶段的流程使用本体识别潜在的元数据:

  1. 识别与领域相关的短语和关键词(图 5 中的 1-3)。
    1. 对识别出的单词和短语进行重要性排序,以确定建议标签。

识别相关短语: 提案等书面文本通常由通用和特定领域的单词和短语混合而成。这一步的目标是根据具有领域知识的专家所整理的信息,为每份提案确定所有候选标签列表。本体论主要包含特定领域的术语和短语,利用这些术语和短语,我们可以确定提案中出现的哪些词汇是领域专家认为与环境基因组学领域相关的。

在我们的使用案例中,为了生成 184 个训练提案的潜在文本标签候选集,我们创建了一个名为 BERO(生物与环境研究本体)的应用本体,该本体由基因组、生物和环境主题领域组成,并编制了所有已识别单词和短语(匹配术语)的列表。表 2 列出了用于创建 BERO 的本体组成。这些本体都是开源的,并经过公开编辑。这些本体是与 JGI 的专题专家合作确定的,涵盖了该研究所研究的所有重点领域和工作,包括基因组学、多组学、生物信息学、植物、生物、生物和环境实体。我们将本体的链接嵌入到生物医学领域专用的文本处理和注释工具中,从而实现本体搜索和实体识别步骤。我们使用两种工具: 1. OntoGene Entity Recognition(OGER)[15, 16],一种生物医学命名实体识别工具;以及 2. scispaCy [17],一种用于生物医学文本处理和命名实体识别(NER)的 python 软件包。OGER 和 scispaCy 可解析无标签文本,查询各种本体,并返回匹配术语的注释列表。ScispaCy 对文本进行了语音部分标记,使我们能够过滤掉不提供语义价值信息(如地理位置)的语音部分和匹配术语。

在这里插入图片描述

无指导的本体搜索会在不考虑任何上下文的情况下返回提案文本中发现的所有匹配,从而导致一些虚假的单词和短语匹配。至少有两类虚假匹配经常出现:

  1. 本体与提案中的单词或短语完全匹配,但上下文不对。这种情况出现在既有特定领域含义又有通用含义的词(如数据、井、样本)上。
  2. 提案中的词语与特定领域短语的首字母缩略词匹配错误。这种情况多发生在较短的词上,尤其是在使用词干时。例如,使用单词 serv(单词 serve 和 service 的词干化版本)进行的无引导搜索与 NCBITaxon 中的 simian endogeneous retrovirus type D, SERV 相匹配(和缩写)。

因此,必须执行搜索和下拉选择规则,以尽量减少候选文本标签出现此类虚假匹配的可能性。为了实现这一目标,并保持匹配候选文本的大小可控,我们采用了两种下选规则:

分支剪枝:有选择性地删除了本体 "分支 "中的术语。本体中的概念通常被归类到称为分支的少数子类中;在这种情况下,我们只考虑经过精心挑选的分支。这一过程称为分支剪枝,在本体搜索之前进行(图 5 中的步骤 1)。整理过程由熟悉本体数据库的领域科学家负责,以确保只保留相关的本体子类。例如,在生物科学数据分析与管理本体(EDAM)的主题、操作、数据、数据标识符和格式等分支中,只有主题分支被保留下来,因为它包含了生物领域更广泛的跨学科概念。同样,表型与性状本体(PATO)也只保留了物理质量分支。

排除短词:少于三个字符的词将从匹配词列表中删除。这一规则的实施不会影响缩略词,因此 DNA 和 SOB(硫氧化细菌)等重要关键词得以保留。短词删除是生成本体匹配后的一个后处理步骤(图 5 中的步骤 3)。

这一步骤的结果是提案中出现的候选标签集,这些标签是由具备基因组学领域专家知识的专家策划的。

本体比较的排序和筛选: 上述本体搜索过程的输出是每个文档的丰富词库。但是,返回的单词和短语没有经过排序,也没有相关的分数来反映不同单词的相对重要性。因此,我们需要设计一种对提取的标签进行排序的方法。为此,我们采用了文档频率 (DF),这是一种衡量短语在给定语料库中罕见程度的方法。任何短语 w 的 DF 值为
D F ( w ) = 包含术语的文档数 w 语料库中的文档总数 \mathit{DF}(w)=\frac{{包含术语的文档数}w}{{语料库中的文档总数}} DF(w)=语料库中的文档总数包含术语的文档数w
根据这一指标,一个词越独特,它就越重要。词频与词值成反比,唯一性则代表重要性。

基于本体的注释过程通常会为每个文档带来大量的词/短语匹配。然而,文档通常是由一组有限的关键词(通常少于 20 个)编制索引的。因此,需要根据标签的重要性来减少标签的数量,因为标签的数量会对关键词评估过程产生重大影响。为了控制每篇文档要考虑的文本标签数量,我们测试了整个语料库中 DF 的不同阈值限制。对于任何特定的阈值限制,只有 DF 分数低于该限制的词才会被视为文档的文本标签。所考虑的阈值范围从 1%(仅限于在语料库中最多出现在两篇文档中的词语)到 100%(不限制出现频率)不等,其中 1%为任意选择的基准值。设置阈值限制有两个目的:

  1. 它是控制评估过程中使用的本体衍生文本标签大小/数量的一种方法,以及
  2. 它为独立评估 NLP 算法在不同类型的本体衍生文本标签上的性能提供了一种方法。DF 指标衡量的是关键词的唯一性,因此低 DF 阈值限制允许我们研究特定文档标签的性能,而高 DF 阈值则允许我们评估特定标签和通用标签的性能。

低于设定阈值限制的匹配词被视为提案的潜在标签(以下称为本体衍生标签)。这些标签将转发给 _SciKey 的关键词评估模块。

基于本体的方法的唯一要求是具备特定领域的词汇。因此,这种方法适用于大多数具有本体意识的领域(即存在受控词汇集的领域)。我们相信,大多数在线本体都有足够相似的用法和结构,因此我们的方法可以适用于新的领域。基于本体的方法的适用性预计将涵盖从生物学到环境科学到语言学再到计算机的广泛领域。

从本文提出的工件链接和基于本体的方法中生成的衍生标签作为基本事实传递给 SciKey,以验证 ML 生成的关键词的质量并调整 NLP 模型(图 3)。

3.3.SciKey Configuration for NLP keyphrase Extraction and Evaluation

如图 3 所示,自动标签生成过程的总体目标是为验证 NLP 算法的 ML 生成关键词提供基本真实标签。ML 关键词生成和验证过程是通过 SciKey 管道完成的。在此,我们总结了针对我们的使用案例使用 SciKey 管道(图 2)进行 ML 关键词评估的过程。

预处理: 首先,对文本准备步骤中的文本进行预处理,以便进行 NLP 输入。使用基于 Regex 的方法去除标点符号、URL、数字和引文。我们采用了命名实体识别(NER)技术和专家自定义列表来处理非标准科学词汇和概念。净化后的文本被传送到关键词提取模块。

关键词提取: 针对我们的使用案例,我们选择了 YAKE NLP 算法 [11];GitHub上提供了开源 Python 实现。虽然 SciKey 提供了其他可用于关键字提取的无监督学习算法,但我们重点关注 YAKE,因为它在评估的算法中表现最佳。不过,我们也可以选择管道中的任何一种算法进行分析。YAKE 会返回为每个提案提取的关键词。这些关键词(下文称为机器生成的关键词或 YAKE 生成的关键词)被转发给 ScienceSearch 管道的关键词评估组件。

我们利用 184 项建议的训练子集来调整 YAKE 参数(即超参数),这些参数控制着如何应用 ML 算法:

n-gram size:文本中出现的 n 个单词的最长连续序列( n g r a m / i n [ 1 , 2 , 3 ] ngram/in[1,2,3] ngram/in[1,2,3])、
** 窗口大小**.YAKE 的滑动窗口大小( w s ∈ [ 1 , 2 , 3 ] ws\in[1,2,3] ws[1,2,3])。
** 重复数据删除方法**:控制重复数据删除的相似度量( d e d u p m ∈ dedup_{m}\in dedupm [Levenshtein distance, Sequence matcher, Jaro-Winkler])。

** 重复阈值**:候选 ML 关键字之间允许的相似度( d e d u p v ∈ [ 0.6 , 0.7 , 0.8 , 0.9 , 0.95 ] dedup_{v}\in[0.6,0.7,0.8,0.9,0.95] dedupv[0.6,0.7,0.8,0.9,0.95])。

对于两组派生标签,超参数的调整是独立进行的:对于每个最高 N N N的情况( N N N ( 5 , 10 , 20 ) (5,10,20) (5,10,20)中),我们运行了四个超参数的所有135种组合,并选择了在训练子集中具有最佳F-1分数的组合(公式3),从而在每种情况下产生了一组不同的超参数。这些优化模型可用于为不在训练子集中的 1959 个可用提案生成关键词。

关键词评估: 在此使用 SciKey 管道的_keyword evaluation 组件对上一阶段由 ML 生成的关键词的质量进行评估。关键词评估模块有两个输入(图 2):

  1. 机器生成的关键词列表(由 SciKey 的关键词提取子模块生成),以及
  2. 用于与 ML 标签进行比较的派生或基本真实标签列表(由第 3.2 节所述的人工链接或基于本体的文本注释技术生成)。

我们采用精确匹配法,将 ML 生成的关键词与衍生标签进行比较,以实现精确的字符串匹配[2]。在定量评估方面,我们采用了信息检索中使用的经典评估指标:精确度、召回率和 F-1 [2]、

这里的 "正确匹配 "是指 ML 生成的关键词也能在派生标签列表中找到。我们使用 NLTK 的 PorterStemmer4对 ML 和派生标签进行词干处理,以消除虚假的不匹配。我们为排名前 N N N(按 YAKE)的关键词生成指标, N N N可为 5、10 或 20。

3.4.Summary

我们介绍了两种可为无标签科学文本自动生成标签的技术。一旦确定并提取了无标签文本中语义重要的部分,文本标签就可以(1)从直接相关的研究中生成,或(2)使用专家编辑的本体生成。由这些技术生成的衍生标签可被视为基本真实标签,用于评估人工智能生成的关键词(例如来自_SciKey_管道)的质量。自动标签生成管道是独一无二的,它为我们提供了验证 ML 生成的关键词质量的替代方法,而无需依赖直接的人工标注。对于科学文本,利用本体和人工链接中已有的领域知识进行标注,是实现关键词提取自动化的第一步。

4 Results

这项工作提出了两种技术–人工链接和本体–用于验证人工智能生成的未标注科学文本的关键词。在本节中,我们将评估这两种技术的特点和质量。首先,我们分析了这两种方法生成的文本标签。随后,我们分析了 YAKE ML 算法与两组生成标签的关系(第 4.2 节)。

这些结果是使用 Python 3.8.13 在运行 Windows 10 Pro 21H2 版本、32GB 内存和英特尔 i7 处理器的 Thinkpad X1 Extreme 上生成的。

4.1.Analysis of Derived Labels

这两种方法都得出了 184 项科学建议的标签。

如 3.2.1 所述,从与提案相关的出版物关键词中共获得 1294 个标签。图 5(a) 显示了每份提案获得的标签数量分布。大多数提案(83%)的标签数为 10 个或更少,而大约 4% 的提案的标签数超过 20 个。

对衍生标签长度的评估(表 3)显示,所有标签的长度都在一个字(单字)到三个字(三字)之间。大约 85% 的标签是单字(一个词),不到 2% 是三字词(三个词)。这一结果更偏重于单字词,这与 Campos 等人[33]的研究结果一致,他们报告的单字词、双字词和三字词的平均比例分别为 47%、34% 和 13%。

4.1.1 Publication-derived labels

表 4 举例说明了发现的一些标签。最常见的标签在主题领域具有典型性和代表性,其中最常见的关键词 genom(基因组和基因组的词干)出现在 40% 以上的提案中。

4.1.2 Ontology-derived labels

采用 3.2.2 中描述的方法,184 项提案共找到 5363 个本体匹配项。图 5(b)显示了每个提议所获得的标签数量的分布。大多数文档(大约 76%)的标签数为 50 个或更少,而大约 4% 的提案的标签数超过了 100 个。对本体术语的分析(表 3)显示,标签的分布比源于出版物的标签更均匀,大词仅占标签的三分之一强。同样,只有极少数标签有两个以上的词。

在这两组衍生标签中,单字词和双字词占绝大多数,这与 Campos 等人[33]得出的结论一致,即人们很少使用三个以上的词语来描述特定主题。

4.2.NLP performance

如第 3.3 节所述,我们运行了 YAKE NLP 算法,并对生成的关键词进行了评估。本节介绍了与出版物和本体衍生标签相对比的性能。

4.2.1 Publication-derived labels

表 4(a) 显示了针对出版物衍生标签对 YAKE 的评估结果。F-1得分与最近发表的针对热门作者标签科学数据集(如Krapavin、Semieval2010、NUS和Inspec)的关键词提取结果相似(见表6)。因此,我们能够为提案获得良好的元数据(与最新技术相比)。在 F-1@10 时获得的结果最好,这表明 @10 在增加总体正确匹配数(召回率)和保持较低误报率(精确率)之间实现了最佳平衡。

表 7 总结了三种 F-1 情况下的最佳 YAKE 超参数值。所有情况下的最佳 YAKE 设置都很相似,唯一的不同之处在于 F-1@5 情况下窗口大小的选择。正如第 4.1.1 节中所强调的那样,由于得出的标签严重偏向于单字词,因此最优 ngram 大小为 1 也就不足为奇了。

前三个提案文档的样本结果(表 8)说明了从定量指标中无法明显看出的匹配结果的某些方面。所有三个示例都表明,我们既能匹配一般关键词(如 genom),也能匹配非常具体的关键词(amanita, desulfitobacterium)。第三个文档显示,虽然 ML 算法由于 "of "是一个停止词而无法匹配三元组关键词 evolut of symbiosis,但它却能匹配组成词 evolutsymbiosi。因此,虽然 ML 算法提出的一些关键词并没有以派生标签中列出的精确形式出现,并受到精确匹配度量的惩罚,但它们仍然代表了文档的有效关键词,不应被丢弃。此外,将关键词与提案标题进行粗略比较后发现,在 ML 生成的关键词列表中存在的一些潜在代表性关键词在派生标签列表中并不存在。例如,关键字 thersii 指的是正在研究的天南星的特定菌株,因此是一个重要的关键字;但是,由于标签列表中没有这个关键字,因此定量结果无法捕捉到这一点。这表明,为提案获取的元数据的质量不仅限于匹配的关键词和定量指标,还反映了提取相关关键词的一个众所周知的挑战:从任何单一文本中都可能产生大量候选关键词,因此很难将最重要的关键词放在最前面[11]。

虽然前 10 个关键词的 F-1 分数最高,但搜索或索引任务的指标选择可能取决于具体的使用情况和优先级。在某些情况下,优先考虑精确度可能更合适,而在另一些情况下,最大限度地提高召回率则更为重要。例如,在研究概念化过程中,找到特定主题的所有相关文献至关重要,在这种情况下,更高的召回率可能更为理想。我们的结果表明,预测前 20 个关键词的召回率最高,检索到了约 44% 的衍生关键词(见表 4(a))。不过,如果担心机器学习(ML)结果中存在噪音,精确度可能是更合适的关注指标,而 F-1@5 则是最佳选择,可确保生成的 ML 关键词中有 26% 是相关的。

4.2.2 Ontology-derived labels

表 4(b) 列出了在 1%的基准 DF 阈值下使用 YAKE 的 JGI 建议所获得的结果。获得的 F-1 分数略低于使用出版物衍生标签(表 4(a))和文献中的科学数据集获得的分数。这可能有两个原因。首先,本体搜索并不考虑语义和上下文信息,因此虽然我们找到了许多本体匹配,但这些匹配也包含了大量噪音:具有特定领域含义但在上下文中并不重要的匹配。例如,co-culturefoodannotation、_assay_和_human_等词作为派生标签出现,是因为它们与生物学相关,因此出现在本体数据库中,但它们作为提案的关键词价值不大。本体标签没有排序,这就意味着这些与上下文无关的匹配很难自动分离出来。因此,对 NLP 算法的评估是不公平的,因为性能指标(召回率和 F-1)是根据虚假否定的数量计算出来的。其次,本体数据库通常会为同一关键词的细微变化提供多个条目。例如,在一个本体数据库中,dehalobacteriumdehalobacterium sp.作为不同的条目存在,因此尽管指的是同一个细菌属,却被视为不同的标签。虽然在现实中与这些术语中的任何一个匹配都已足够,但评估技术会对不完全匹配的标签进行惩罚(即假阴性),从而导致较低的 F-1 分数。在一个具体案例中,返回的唯一衍生标签是_clostridium thermocellum dsm 1313,而 ML 算法返回的是_clostridium thermocellum(作为其前 5 个关键词之一),导致得分为零。

为了了解结果对 DF 临界值的敏感性,我们用 1% 到 100% 的不同临界值重新训练了 ML 模型,并计算了 F-1 分数(表 9)。当 NLP 算法只生成 10 个关键词时,F-1 分数最佳;进一步增加关键词数量只会使 NLP 算法性能恶化。这表明,对每个提案文本来说最独特的关键词排名靠前,NLP 算法也会尽早返回。分析还显示,精确度和召回率受所选阈值和关键词数量的影响不同。精确度随着阈值的增加而成正比增加,但随着关键词数量的增加而减少。另一方面,虽然召回率随着关键词数量的增加而增加,但它相对不受所选阈值的影响。

在所有 F-1@10 案例中,YAKE 在设置 ngram=2 时获得了最佳结果。这与使用出版物衍生标签(第 4.2 节)获得的 ngram=1 的最佳设置有所不同,也反映了本体衍生标签集中大词的比例较高(表 3)。

表 10 列出了在 F-1@10 和阈值 = 1% 的条件下为前三份提案文档生成的关键词。对生成的关键词进行定性比较后发现,我们能够找到每个文档特有的单音节和双音节关键词(如 johnson grass, saccharina)。然而,可能更通用的关键字(如 genome)却没有得到验证,因为它们在本体衍生的

在这里插入图片描述

  • 这里只显示了 36 个本体衍生标签中的一半。

标签集(被频率过滤器剔除)。例如,ML 生成的关键字 cell wall 出现在第二个建议的完整标签列表中,但它出现在 5 个文档中(2.7%),因此在这种情况下不予考虑。值得注意的是,一些经过验证的关键词与出版物衍生标签中的关键词相吻合。

第一份文档的标签凸显了基于本体的方法所面临的主要挑战:我们至少有三种_desultitobacterium hafniens_的变体,而其中一些标签对提案(如威胁、适应)的代表性较差。因此,在 ML 之前对标签进行进一步的后处理将有利于提高结果的质量。

5 Discussion

关联强度和衍生标签的有效性 使用与文本无直接关联的关键词对 ML 生成的关键词进行了评估,因此需要对衍生标签的有效性进行评估。出版物衍生标签是由用户指定的关键字,这些关键字来自直接利用通过链接提案产生的数据或材料的已出版作品。因此,我们希望这些标签能够有力地代表提案,但事实并非总是如此。在两种特定情况下,关联性可能较弱:提案的产品被使用但在出版物中并未发挥重要作用,或者出版物涉及的主题或概念与提案中最初阐述的主题或概念不同。在这种情况下,源自出版物的关键词可能无法准确反映特定提案的内容。但一般来说,我们希望出版物派生关键字能代表提案的内容。本体衍生关键词直接从提案文本中提取,因此关联性很强。然而,由于本体衍生标签采用的是基于频率的排序方法,因此对于分配给单个关键词的基于频率的排序是否能准确反映其作为文档标签的实际上下文和语义重要性仍存在疑问。由于人类在关键词选择过程中加入了语义和上下文信息,因此出版物衍生关键词被认为是两种来源中更可靠的一种。开发一种考虑到所提取关键词上下文的排序方法将有助于提高对本体衍生标签的信心。

**为任何文档指定标签和/或关键字本质上都是主观的。用户指定的标签被认为是文本摘要的黄金标准;然而,即使采用这种方法,用户也不会指定所有可能正确的关键词。研究人员通常以临时的方式挑选关键词,这种方式远非最佳,而且通常存在偏见[34],一些不适合作为关键词的短语也经常被包含在内。我们在处理通过人工链接生成的标签(即出版物衍生标签)时也遇到了同样的难题:ML 算法发现了几个很好的候选关键词,但这些关键词在衍生标签列表中并不存在(例如 thiersiihalorespir)。因此,对 ML 生成的关键词进行 "后 ML "步骤(post-ML_step)的人工在环关键词验证将有助于提高出版物衍生标签方法的质量,并确保不会丢失好的关键词。

不出所料,与人工链接方法相比,本体搜索为每个文档返回的派生关键词要多得多。不过,它也会返回一些通用的、低质量的、非特定领域的术语(如_threat_、strengthattract)。本体衍生标签所面临的挑战与上文所述的人工链接恰恰相反,潜在的候选关键词可能会在筛选阶段丢失。因此,在使用基于本体的方法时,人工干预以提高关键词质量将是最有益的_pre-ML_步骤。

**我们的结果表明,两种情况下 ML 生成的关键字都包含一些过于通用的关键字,在语义或上下文方面都不实用(如 grassdiversitydivergence)。这些关键词可以通过改进停止词列表来消除。

关于经过验证(即匹配)的关键词,结果表明,无论衍生标签来源如何,我们都能匹配通用关键词和特定文档关键词。不过,基于本体的方法的优势在于有一个超参数(即阈值限制)来控制验证关键词的唯一性。这对于剔除 genomesequencing 等词非常有用,这些词虽然是特定领域的,但在基因组语料库中会频繁出现。

对停顿词的敏感性 使用本体衍生标签观察到的结果对停顿词列表非常敏感。科学文本中常见的一些词,如_observations_、_findings_和_field_等,在基因组学领域有特定的含义,因此在生物和生物医学本体论中也有词条。这类词需要明确处理,以避免将其列为潜在的本体衍生标签,而最合理的方法是将其列入停止词列表。因此,如果要采用基于本体的标注流程,对停止词列表进行仔细整理至关重要。由于来源于出版物的标签是由人工编辑的,因此关键词列表中不太可能存在这类词。

**结果表明,我们在验证通过人工链接生成的标签(即第 3.2.1 节中所述的由出版物生成的标签)时表现更好。这是因为源于出版物的标签数量较少,但质量较高。通过人工链接方法验证的 ML 生成关键词占 44%,而通过本体生成的标签验证的关键词占 23%。这两种方法需要不同的 n-gram 设置,各自反映了衍生标签的_ngram_分布。两种方法都有一些共同的验证关键字;这些关键字有望成为提案文本的良好代表摘要。

**虽然这项工作展示了在基因组学领域提出的文本标注方法的适用性,但我们相信,这些技术也可用于其他科学领域。

人工制品链接方法包括三个主要步骤(图 4):(1) 文档交叉引用,(2) 从在线科学数据库中收集链接文物的关键词,(3) 关键词过滤。交叉引用步骤涉及使用额外的输入,即可以链接到未标记输入文本的已标记人工制品。大多数未标注的科学文本可以直接链接到产生其他标注人工制品(如出版物或 DOE 技术报告)的特定科研项目。不过,虽然 JGI 已经实施了将出版物与用户建议书关联起来的工作流程和实践,但这样做可能是一个非同小可且成本高昂的过程,而且可靠地创建这些链接所需的信息可能并不总是可用的。此外,其他机构将出版物和建议书等研究人工制品联系起来的标准可能与 JGI 使用的标准不同。因此,获取现有的语料库或制作类似人工制品链接的方法是这种方法的先决条件。如果一个机构能够满足这一前提条件,那么新的应用只需根据创建人工制品链接的方式和所涉及的系统定制脚本即可。由此产生的信息仍与本研究中使用的信息相同,因此交叉引用步骤可以推广到其他领域。此外,交叉引用步骤只需要足够的信息就可以找到标注文本(如标题、DOI 或 PMID),而不需要完整的文档本身。人工链接过程的第二阶段是通用的,如果标注的文档是在 PubMed 或 Web of Science 上,则可以直接应用。对于其他在线数据库(如 Scopus),则需要定制专门用于解析这些数据库信息的方法,但一般概念保持不变。关键词是从第三方数据库索引的文章元数据中提取的,而不是从文章本身提取的。因此,这种方法避免了付费墙的瓶颈。最后的关键词过滤阶段使用 Regex 字符串匹配–它是通用的,使用时无需额外定制。因此,虽然识别已标注和未标注人工制品之间的链接的过程可以根据人工制品之间建立联系的方式进行定制,但其他步骤是通用的。

如图 5 所示,基于本体的文本标签生成方法包括四个主要步骤:分支剪枝、本体术语匹配、短词过滤和阈值过滤。要在不同的应用领域使用基于本体的方法,需要对管道的第一阶段进行修改,以适应特定的兴趣领域,方法是将与特定领域本体的链接整合到自然语言处理(NLP)工具中。大多数科学应用领域都具有本体意识[35],而且大多数在线本体在用法和结构上都有合理的相似性,因此建议的方法可以直接应用于这些领域。因此,虽然本体嵌入阶段需要一些特定领域的定制,但无论在哪个领域,所需的要求、信息和工具都是相同的,从而使该方法具有通用性。管道的其余阶段不需要修改或针对特定领域进行定制,基本上可以按照本工作中的描述来实施。

6 Related Work

在本节中,我们将简要回顾与关键词提取相关的工作,以及为自然语言处理自动标注或增强数据的举措。

关键词提取: 目前有大量工作致力于解决从科学数据中提取相关关键词这一长期存在的问题。NLP 提供了从科学文本中理解[36, 37]、总结[38]、转述[39]、分类[40]和提取关键术语和短语[41]的能力。有监督、半监督和无监督的机器学习方法都被应用于关键词提取问题,并取得了不同程度的成功;[42] 和 [43] 对当前的最新技术进行了广泛的回顾。在关键词提取方面,我们在这项工作中采用的方法(通过 SciKey)是无监督的,并具有结合特定领域文本处理、命名实体识别和频率分析的附加功能。

自动文本标注和数据扩充: 在自动标注和/或改进这些 NLP 问题的训练数据方面,人们做出了许多努力。解决标签缺乏问题的传统方法是使用预训练或大型语言模型,专注于生成数据增强[5, 6, 7, 44]。在这种方法中,少量带标签的数据被用来训练语言模型,该语言模型为有监督的 NLP 任务生成带标签的合成数据,合成数据被用来训练最终的 NLP 模型。例如,一些研究人员采用这种方法对文本分类进行数据增强,通过微调语言模型,为给定的标签 y y y合成新的输入 x x x[5, 7]。同样,AugGPT[45]、GPT3Mix[46]、LAMBADA[47]和_DARE_[6]等数据增强技术通过微调 GPT-2 [48] 和 GPT-3 [49] 等神经网络模型,为监督学习和文本分类生成合成训练数据。最近,人们探索了用于 NLP 的 “零标签语言学习”(zero-label language learning)概念,以消除对预训练语言模型进行微调的需要 [49, 50]。在零标签语言学习中,训练过程中不使用任何人类标注的数据:NLP 模型纯粹是在由预训练语言模型生成的合成数据上进行训练的。例如,无监督数据生成(Unsupervised Data Generation,UDG)技术[50]使用一些用户提供的无标注示例来训练语言模型,从而在没有真实人类标注的情况下合成高质量的训练数据;该模型在分类问题上产生的结果与基于人类标注数据训练的基线模型相当。此外,随着 GPT-3、GPT-4 [51] 和 LLaMA [52, 53] 等基础语言模型的成功,人们开始尝试通过提示工程和上下文学习将大型语言模型直接应用于无标注数据标注任务;例如,[3] 评估了 GPT-3 在分类和命名实体识别 (NER) 等不同数据标注任务中的能力。

人们还探索了依赖可编程规则和启发式方法(即标签函数)来生成标签或合成新示例的弱监督学习方法[54],然而,这种技术最适用于分类问题,而且很难定义合理的规则。

上述方法允许我们生成有标记的训练数据,用于监督和无监督匹配学习的训练和验证;但是,这些方法要么需要一些有标记的示例来微调语言模型[3],要么仅适用于文本分类,要么不直接标记现有数据,要么需要大量的后处理[50],要么没有考虑到科学文本的特定领域性质,因此限制了它们在标记特定领域的科学人工智能以提取关键词方面的适用性。使用预先训练好的语言模型进行文本标注的计算量也很大,而且往往无法涵盖真实例子的全部多样性和复杂性[7]。以往的研究表明,像 GPT-3 这样的大型语言模型,在没有额外微调的情况下直接应用于复杂的数据标注任务(如 NER)时,可能表现不佳[3, 55]。

这项工作中提出的方法解决了其中的一些难题。我们的方法为现有的训练数据生成标签,而不是创建合成训练数据;它们不需要预先训练的语言模型或标签示例。我们在这项工作中提出的方法的一个独特之处是,我们提出的技术在标签生成/分配任务中完全不使用机器学习技术;相反,我们主要利用真实可用的公共(人类)知识,如相关科学著作和受控词汇表。这样做有几个好处。首先,我们提出的方法特别适合处理和利用科学文本的特定领域性质,而预先训练好的通用语言模型则很难完成这项任务。其次,除了计算成本低廉之外,我们在此开发的方法还允许我们执行关键词分配和提取任务,而不仅仅是文本分类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值