AI推介-信息抽取(information extraction,NER)论文速览(arXiv方向):2023.11.15-2023.12.31

文章目录~

1.Large Language Models for Generative Information Extraction: A Survey

标题:用于生成式信息提取的大型语言模型:调查

author:Derong Xu, Wei Chen, Wenjun Peng, Chao Zhang, Tong Xu, Xiangyu Zhao, Xian Wu, Yefeng Zheng, Yang Wang, Enhong Chen

publish:v2: Updated 100+ new papers, 5 technical categories

date Time:2023-12-29

paper pdf:http://arxiv.org/pdf/2312.17617v2

摘要
信息提取(IE)旨在从简单的自然语言文本中提取结构性知识(如实体、关系和事件)。最近,生成式大语言模型(LLMs)在文本理解和生成方面表现出了非凡的能力,可以在各种领域和任务中通用。因此,人们提出了许多利用 LLM 能力的方法,并基于生成范式为 IE 任务提供可行的解决方案。为了全面系统地回顾和探讨 LLM 在 IE 任务方面所做的努力,我们在本研究中调查了该领域的最新进展。首先,我们根据不同的 IE 子任务和学习范式对这些工作进行了分类,从而对其进行了广泛的概述;然后,我们对最先进的方法进行了实证分析,并发现了使用 LLM 的 IE 任务的新兴趋势。在全面回顾的基础上,我们发现了一些技术见解和有前景的研究方向,值得在今后的研究中进一步探索。我们维护了一个公共资源库,并持续更新相关资源:\url{https://github.com/quqxui/Awesome-LLM4IE-Papers}.

2.Commonsense for Zero-Shot Natural Language Video Localization

标题:零镜头自然语言视频定位的常识

author:Meghana Holla, Ismini Lourentzou

publish:Accepted to AAAI 2024

date Time:2023-12-29

paper pdf:http://arxiv.org/pdf/2312.17429v2

摘要
零镜头自然语言视频定位(NLVL)方法通过动态生成视频片段和伪查询注释,在完全使用原始视频数据训练 NLVL 模型方面取得了可喜的成果。然而,现有的伪查询往往缺乏源视频的基础,导致内容无序且相互脱节。在本文中,我们研究了常识推理在零镜头 NLVL 中的有效性。具体来说,我们提出了 CORONET,这是一种零镜头无LVL 框架,它利用常识,通过常识增强模块弥合视频与生成的伪查询之间的差距。CORONET 采用图形卷积网络(GCN)对从知识图谱中提取的常识信息进行编码,并以视频为条件,同时采用交叉注意机制在定位之前增强编码后的视频和伪查询表示。通过在两个基准数据集上进行实证评估,我们证明 CORONET 超越了零拍摄和弱监督基线,在各种召回阈值上实现了高达 32.13% 的改进,在 mIoU 上实现了高达 6.33% 的改进。这些结果凸显了利用常识推理进行零次 NLVL 的重要性。

3.Unified Lattice Graph Fusion for Chinese Named Entity Recognition

标题:中文命名实体识别的统一网格图融合

author:Dixiang Zhang, Junyu Lu, Pingjian Zhang

date Time:2023-12-28

paper pdf:http://arxiv.org/pdf/2312.16917v1

摘要
在中文命名实体识别(NER)中,将词库整合到字符级序列中对利用词边界和语义信息非常有效。然而,先前的方法通常利用特征加权和位置耦合来整合词信息,却忽略了字符-词空间中细粒度语义单元之间的语义和上下文对应关系。为解决这一问题,我们提出了一种用于中文 NER 的统一格图融合(ULGF)方法。通过将网格结构转换为统一图,ULGF 可以利用邻接矩阵明确捕捉不同语义单位之间的各种语义和边界关系。我们堆叠了多个基于图的源内自关注和源间交叉门控融合层,通过迭代进行语义交互来学习节点表征。为了减轻对单词信息的过度依赖,我们进一步提出利用词库实体分类作为辅助任务。在四个中文 NER 基准数据集上的实验证明了我们的 ULGF 方法的优越性。

4.Solving Label Variation in Scientific Information Extraction via Multi-Task Learning

标题:通过多任务学习解决科学信息提取中的标签差异问题

author:Dong Pham, Xanh Ho, Quang-Thuy Ha, Akiko Aizawa

publish:14 pages, 7 figures, PACLIC 37

date Time:2023-12-25

paper pdf:http://arxiv.org/pdf/2312.15751v1

摘要
科学信息提取(ScientificIE)是一项涉及识别科学实体及其关系的重要任务。这项任务的复杂性因特定领域知识的必要性和注释数据的有限性而变得更加复杂。科学实体识别最常用的两个数据集是 SemEval-2018 Task-7 和 SciERC。这两个数据集的样本相互重叠,注释方案也不尽相同,这就导致了冲突。在这项研究中,我们首先引入了一种基于多任务学习的新方法来解决标签变化问题。然后,我们提出了一种软标签技术,将不一致的标签转换为概率分布。实验结果表明,所提出的方法可以增强模型对标签噪声的鲁棒性,并提高两个 ScientificIE 任务的端到端性能。分析表明,标签变化在处理模棱两可的实例时尤为有效。此外,标签变化所捕获的丰富信息有可能减少对数据大小的要求。研究结果强调了发布变化标签的重要性,并促进了未来对其他领域中其他任务的研究。总之,这项研究证明了多任务学习的有效性,以及标签变化在提高科学信息学性能方面的潜力。

5.Multi-level biomedical NER through multi-granularity embeddings and enhanced labeling

标题:通过多粒度嵌入和增强标记实现多层次生物医学 NER

author:Fahime Shahrokh, Nasser Ghadiri, Rasoul Samani, Milad Moradi

date Time:2023-12-24

paper pdf:http://arxiv.org/pdf/2312.15550v1

摘要
生物医学命名实体识别(NER)是生物医学自然语言处理的一项基本任务,用于从临床记录、科学出版物和电子健康记录等生物医学文本中提取相关信息。生物医学 NER 的传统方法主要使用传统的机器学习技术,如条件随机场和支持向量机,或基于深度学习的模型,如递归神经网络和卷积神经网络。最近,包括 BERT 在内的基于变换器的模型已被用于生物医学 NER 领域,并取得了显著效果。然而,这些模型通常基于词级嵌入,限制了它们捕捉字符级信息的能力,而由于生物医学文本的高变异性和复杂性,字符级信息在生物医学 NER 中非常有效。为了解决这些局限性,本文提出了一种混合方法,综合了多种模型的优势。在本文中,我们提出了一种方法,利用微调 BERT 提供上下文化的单词嵌入,利用预训练的多通道 CNN 捕捉字符级信息,然后利用 BiLSTM + CRF 进行序列标注并模拟文本中单词之间的依赖关系。此外,作为预处理的一部分,我们还提出了一种增强型标注方法,以增强对实体开头词的识别,从而改进多词实体的识别,这是生物医学 NER 中的一个常见挑战。通过整合这些模型和预处理方法,我们提出的模型能有效捕捉上下文信息和详细的字符级信息。我们在基准 i2b2/2010 数据集上评估了我们的模型,F1 分数达到 90.11。这些结果表明了我们提出的模型在生物医学命名实体识别方面的能力。

6.YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction

标题:YAYI-UIE:用于通用信息提取的聊天增强型指令调整框架

author:Xinglin Xiao, Yijie Wang, Nan Xu, Yuqi Wang, Hanxuan Yang, Minzheng Wang, Yin Luo, Lei Wang, Wenji Mao, Daniel Zeng

date Time:2023-12-24

paper pdf:http://arxiv.org/pdf/2312.15548v3

摘要
信息提取任务的难点在于处理特定任务的标签模式和异构数据结构。最近的研究提出了基于大型语言模型的方法,对不同的信息提取任务进行统一建模。然而,这些现有方法在英语以外的中文信息抽取能力方面存在不足。在本文中,我们提出了一种端到端聊天增强指令调整通用信息提取框架(YAYI-UIE),它同时支持中文和英文。具体来说,我们利用对话数据和信息提取数据来共同提高信息提取性能。实验结果表明,我们提出的框架在中文数据集上取得了最先进的性能,同时在英文数据集上,无论是在监督设置还是零点设置下,都取得了不相上下的性能。

7.Data Transformation to Construct a Dataset for Generating Entity-Relationship Model from Natural Language

标题:通过数据转换构建用于从自然语言生成实体-关系模型的数据集

author:Zhenwen Li, Jian-Guang Lou, Tao Xie

date Time:2023-12-21

paper pdf:http://arxiv.org/pdf/2312.13694v1

摘要
为了减少设计 ER 模型的人工成本,最近提出了一些方法来解决 NL2ERM 任务,即从自然语言(NL)语句(如软件需求)自动生成实体-关系(ER)模型。这些方法通常是基于规则的方法,依赖于僵化的启发式规则;这些方法不能很好地概括描述同一需求的各种语言方式。尽管与基于规则的方法相比,基于深度学习的模型具有更好的泛化能力,但由于缺乏大规模的数据集,NL2ERM 仍然缺乏基于深度学习的模型。为了解决这个问题,我们在本文中报告了我们的见解,即 NL2ERM 任务与日益流行的文本到 SQL 任务之间存在高度相似性,并提出了一种数据转换算法,将现有的文本到 SQL 数据转换为 NL2ERM 数据。我们在最流行的文本到 SQL 数据集之一 Spider 上应用了我们的数据转换算法,同时还收集了一些不同 NL 类型的数据条目,从而获得了一个大规模的 NL2ERM 数据集。由于 NL2ERM 可被视为一种特殊的信息提取(IE)任务,因此我们在数据集上训练了两种最先进的 IE 模型。实验结果表明,这两个模型都达到了很高的性能,并且优于现有的基线模型。

8.TESS: A Multi-intent Parser for Conversational Multi-Agent Systems with Decentralized Natural Language Understanding Models

标题:TESS:采用分散式自然语言理解模型的对话式多代理系统多意图解析器

author:Burak Aksar, Yara Rizk, Tathagata Chakraborti

publish:16 pages

date Time:2023-12-19

paper pdf:http://arxiv.org/pdf/2312.11828v1

摘要
聊天机器人已成为提供业务自动化工具的主要途径之一。多代理系统为大规模设计聊天机器人提供了一个框架,使其更容易支持跨越多个领域的复杂对话,并使开发人员能够随着时间的推移逐步维护和扩展聊天机器人的功能。然而,多代理系统会使用户意图的自然语言理解(NLU)变得复杂,尤其是当它们依赖于分散的 NLU 模型时:一些语句(称为单一意图)可能会调用一个代理,而另一些语句(称为多意图)可能会明确调用多个代理。如果不能正确解析多意图输入,分散式 NLU 方法将无法实现较高的预测准确性。在本文中,我们提出了一种高效的解析和协调流水线算法,用于在多代理系统中为来自用户的多意图语音提供服务。我们提出的方法在三个不同的数据集上实现了与竞争性深度学习模型相当的性能,同时速度快达 48 倍。

9.Agent-based Learning of Materials Datasets from Scientific Literature

标题:基于代理的科学文献材料数据集学习

author:Mehrad Ansari, Seyed Mohamad Moosavi

date Time:2023-12-18

paper pdf:http://arxiv.org/pdf/2312.11690v1

摘要
机器学习和人工智能的进步正在改变材料发现。然而,结构化实验数据的可用性仍然是一个瓶颈。大量科学文献为此类数据提供了宝贵而丰富的资源。然而,由于在保持质量和一致性、可扩展性方面的限制以及人为错误和偏见的风险等问题,从这些资源中手动创建数据集具有挑战性。因此,在这项工作中,我们开发了一个由大型语言模型(LLM)驱动的化学家人工智能代理,通过从自然语言文本(从句子和段落到大量科学研究文章)中自主创建结构化数据集来克服这些挑战。我们的化学家人工智能代理 Eunomia 可以利用从数十年的科学研究文章、科学家、互联网和其他工具中获得的现有知识来计划和执行行动。我们在三个不同复杂程度的信息提取任务中对我们的方法进行了性能基准测试,包括固态杂质掺杂、金属有机框架(MOF)化学式和性质关系。我们的结果表明,我们的 "0-shot "代理在适当工具的配合下,能够达到优于或媲美最先进的微调材料信息提取方法的性能。这种方法简化了用于各种材料发现应用的机器学习就绪数据集的编制工作,并大大方便了自然语言新手使用高级自然语言处理工具。这项工作中的方法是在 https://github.com/AI4ChemS/Eunomia 上开发的开源软件。

10.HyperPIE: Hyperparameter Information Extraction from Scientific Publications

标题:HyperPIE:从科学出版物中提取超参数信息

author:Tarek Saier, Mayumi Ohta, Takuto Asakura, Michael Färber

publish:accepted at ECIR2024

date Time:2023-12-17

paper pdf:http://arxiv.org/pdf/2312.10638v2

摘要
从出版物中自动提取信息是大规模实现科学知识机器可读的关键。例如,提取的信息可以促进学术搜索、决策制定和知识图谱构建。超参数是现有方法未涵盖的一类重要信息。在本文中,我们将超参数信息抽取(HyperPIE)正式化,并将其作为一项实体识别和关系抽取任务来处理。我们创建了一个标签数据集,涵盖了计算机科学各学科的出版物。利用该数据集,我们训练并评估了基于 BERT 的微调模型以及五个大型语言模型:GPT-3.5、GALACTICA、Falcon、Vicuna 和 WizardLM。对于微调模型,我们开发了一种关系提取方法,与最先进的基线相比,F1 提高了 29%。对于大型语言模型,我们开发了一种利用 YAML 输出进行结构化数据提取的方法,与使用 JSON 相比,该方法在实体识别方面的 F1 平均提高了 5.5%。利用我们性能最好的模型,我们从大量未加注释的论文中提取了超参数信息,并分析了跨学科的模式。我们的所有数据和源代码均可在 https://github.com/IllDepence/hyperpie 上公开获取。

11.From Dialogue to Diagram: Task and Relationship Extraction from Natural Language for Accelerated Business Process Prototyping

标题:从对话到图表:从自然语言中提取任务和关系,加速业务流程原型开发

author:Sara Qayyum, Muhammad Moiz Asghar, Muhammad Fouzan Yaseen

publish:9 pages, 2 figures

date Time:2023-12-16

paper pdf:http://arxiv.org/pdf/2312.10432v1

摘要
将冗长的自然语言描述自动转换为结构化流程模型仍然是一项非常复杂的挑战–本文介绍了一种现代解决方案,其核心是使用依赖性解析和命名实体识别(NER)从文本描述中提取关键要素。此外,我们还利用主谓宾(SVO)结构来识别动作关系,并整合包括 WordNet 在内的语义分析工具来丰富上下文理解。我们系统的一个新颖之处在于应用了神经核心参照解析,并与 SpaCy 框架相结合,从而提高了实体链接和拟声参照的精确度。此外,该系统还善于处理数据转换和可视化,将提取的信息转换成 BPMN(业务流程模型和符号)图。这种方法不仅简化了捕获和表示业务工作流的过程,还大大减少了传统建模方法中固有的人工工作量和出错的可能性。

12.Low-resource classification of mobility functioning information in clinical sentences using large language models

标题:利用大型语言模型对临床句子中的移动功能信息进行低资源分类

author:Tuan Dung Le, Thanh Duong, Thanh Thieu

date Time:2023-12-15

paper pdf:http://arxiv.org/pdf/2312.10202v1

摘要
目的:功能越来越被认为是全人健康的重要指标。本研究评估了公开可用的大型语言模型(LLM)从临床笔记中准确识别功能信息的能力。我们探索了各种策略来提高这项任务的性能。材料与方法:我们从 Mobility NER 数据集中收集了一个包含 1000 个句子的平衡二元分类数据集,该数据集是从 n2c2 临床笔记中整理出来的。为了进行评估,我们构建了零次和少量提示,以查询 LLMs 给定的句子是否包含移动功能信息。我们使用随机抽样和基于 k 近邻(kNN)的抽样两种抽样技术来选择少镜头示例。此外,我们还对 LLMs 应用了一种基于提示的参数高效微调方法,并评估了它们在各种训练设置下的性能。结果如下Flan-T5-xxl 在零镜头和少镜头设置下的表现都优于所有其他模型,通过 kNN 抽样选出的单个示范示例的 F1 分数达到了 0.865。在基于提示的微调实验中,该基础模型在所有低资源设置中也表现出了卓越的性能,尤其是在使用完整训练数据集时取得了令人印象深刻的 0.922 高分。较小的模型 Flan-T5-xl 只需要微调 2.3M 额外参数,就能达到与完全微调的 Gatortron 基础模型相当的性能,两者的 F1 分数都超过了 0.9。结论开源指令调整的 LLM 在移动功能分类任务中表现出了令人印象深刻的上下文学习能力。通过在特定任务数据集上继续进行微调,这些模型的性能可以得到进一步提高。

13.Information Extraction from Unstructured data using Augmented-AI and Computer Vision

标题:利用增强型人工智能和计算机视觉从非结构化数据中提取信息

author:Aditya Parikh

date Time:2023-12-15

paper pdf:http://arxiv.org/pdf/2312.09880v1

摘要
信息提取(IE)过程通常用于从非结构化和无标记的数据中提取有意义的信息。传统的数据提取方法包括应用 OCR 和传递提取引擎,这些方法在处理大量数据时效率低下,而且有其局限性。本文利用 A2I 和计算机视觉技术提出了一种独特的信息提取技术,其中还包括 NLP。

14.Labels Need Prompts Too: Mask Matching for Natural Language Understanding Tasks

标题:标签也需要提示:自然语言理解任务中的掩码匹配

author:Bo Li, Wei Ye, Quansen Wang, Wen Zhao, Shikun Zhang

publish:AAAI2024, Regular Paper

date Time:2023-12-14

paper pdf:http://arxiv.org/pdf/2312.08726v2

摘要
在许多自然语言理解(NLU)任务中,文本标签名称(描述)通常具有丰富的语义。在本文中,我们首次将广泛用于丰富模型输入的提示方法融入到标签方面。具体来说,我们提出了一种掩码匹配方法,该方法为输入配备了一个提示,为其标签配备了另一个提示,然后通过匹配它们的掩码表示进行预测。我们在 8 项 NLU 任务和 14 个数据集上广泛评估了我们的方法。实验结果表明,掩码匹配法明显优于微调法和传统的提示语微调法,在多个数据集上都达到了最先进的水平。掩码匹配技术尤其擅长处理具有大量标签和信息标签名称的 NLU 任务。作为研究标签方提示的先驱,我们还讨论了未来研究的开放性问题。

15.Robust Few-Shot Named Entity Recognition with Boundary Discrimination and Correlation Purification

标题:利用边界判别和相关性净化实现稳健的少镜头命名实体识别

author:Xiaojun Xue, Chunxia Zhang, Tianxiang Xu, Zhendong Niu

date Time:2023-12-13

paper pdf:http://arxiv.org/pdf/2312.07961v1

摘要
少量命名实体识别(NER)旨在利用现有知识识别低资源领域中的新命名实体。然而,目前的少数几次命名实体识别(NER)模型都假定标注数据都是干净的,没有噪声或异常值,而且很少有作品关注少数几次命名实体识别(NER)中跨域迁移学习能力对文本对抗攻击的鲁棒性。在这项工作中,我们全面探索和评估了文本对抗攻击场景下少拍 NER 模型的鲁棒性,发现了现有少拍 NER 模型的脆弱性。此外,我们还提出了一种具有边界判别和相关性净化(BDCP)的鲁棒性两阶段少镜头 NER 方法。具体来说,在跨度检测阶段,引入实体边界判别模块,为检测实体跨度提供高度区分的边界表示空间。在实体类型化阶段,通过最小化干扰信息和促进相关性泛化来纯化实体和上下文之间的相关性,以减轻文本对抗攻击造成的扰动。此外,我们还基于公开数据集 Few-NERD 和 Cross-Dataset,构建了用于少量 NER 的对抗实例。在这两组包含对抗示例的少量 NER 数据集上进行的综合评估证明了所提方法的鲁棒性和优越性。

16.Enhanced E-Commerce Attribute Extraction: Innovating with Decorative Relation Correction and LLAMA 2.0-Based Annotation

标题:增强型电子商务属性提取:利用装饰关系校正和基于 LLAMA 2.0 的注释进行创新

author:Jianghong Zhou, Weizhi Du, Md Omar Faruk Rokon, Zhaodong Wang, Jiaxuan Xu, Isha Shah, Kuang-chih Lee, Musen Wen

publish:9 pages, 5 images

date Time:2023-12-09

paper pdf:http://arxiv.org/pdf/2312.06684v1

摘要
随着电子商务平台的迅速发展,人们更加需要先进的搜索和检索系统来促进卓越的用户体验。这项工作的核心是从客户查询中精确提取产品属性,从而实现精细搜索、比较和其他重要的电子商务功能。与传统的命名实体识别(NER)任务不同,电子商务查询是一项独特的挑战,因为产品类型和属性之间存在内在的装饰关系。在本研究中,我们提出了一个开创性的框架,该框架集成了用于分类的 BERT、用于属性值提取的条件随机场(CRFs)层和用于数据注释的大语言模型(LLMs),大大提高了客户查询的属性识别能力。我们的方法充分利用了 BERT 的稳健表示学习和 CRFs 的序列解码能力,从而能够巧妙地识别和提取属性值。我们引入了一种新颖的装饰关系校正机制,可根据电子商务数据中产品类型和属性之间固有的细微关系进一步完善提取过程。通过使用 LLM,我们注释了额外的数据,以扩大模型对不同属性的把握和覆盖范围。我们的方法在沃尔玛、BestBuy 电子商务 NER 数据集和 CoNLL 数据集等多个数据集上得到了严格验证,证明了属性识别性能的大幅提高。特别是,该模型在沃尔玛的赞助商产品搜索中进行了为期两个月的部署,取得了可喜的成果,突显了其实用性和有效性。

17.LLMs Accelerate Annotation for Medical Information Extraction

标题:LLM 加快医学信息提取的注释工作

author:Akshay Goel, Almog Gueta, Omry Gilon, Chang Liu, Sofia Erell, Lan Huong Nguyen, Xiaohong Hao, Bolous Jaber, Shashir Reddy, Rupesh Kartha, Jean Steiner, Itay Laish, Amir Feder

publish:Published in proceedings of the Machine Learning for Health (ML4H)
Symposium 2023

date Time:2023-12-04

paper pdf:http://arxiv.org/pdf/2312.02296v1

摘要
电子健康记录中的非结构化临床笔记往往隐藏着与患者相关的重要信息,因此很难对其进行访问或解释。要揭示这些隐藏信息,需要专门的自然语言处理(NLP)模型。然而,训练这些模型需要大量的标注数据,如果仅依靠人类专家进行标注,这一过程既耗时又昂贵。在本文中,我们提出了一种将大型语言模型(LLM)与人类专业知识相结合的方法,为医学文本注释生成基本真实标签创造了一种高效的方法。通过将大型语言模型与人类注释者相结合,我们大大减轻了人类注释的负担,从而能够快速创建标注数据集。我们在一项医学信息提取任务中对我们的方法进行了严格评估,结果表明我们的方法不仅大大减少了人工干预,而且保持了较高的准确性。这些结果凸显了使用 LLMs 提高非结构化临床数据利用率的潜力,从而在医疗保健领域迅速部署量身定制的 NLP 解决方案。

18.A Corpus for Named Entity Recognition in Chinese Novels with Multi-genres

标题:多类型中文小说命名实体识别语料库

author:Hanjie Zhao, Jinge Xie, Yuchen Yan, Yuxiang Jia, Yawen Ye, Hongying Zan

date Time:2023-11-27

paper pdf:http://arxiv.org/pdf/2311.15509v1

摘要
人物、地点、组织等实体对于文学文本分析非常重要。注释数据的缺乏阻碍了文学领域命名实体识别(NER)的进展。为了促进文学 NER 的研究,我们建立了最大的多流派文学 NER 语料库,其中包含来自 260 部网络中文小说的 105,851 个句子中的 263,135 个实体,涵盖 13 种不同流派。基于该语料库,我们研究了不同体裁实体的特征。我们提出了几个基准 NER 模型,并进行了跨流派和跨领域的实验。实验结果表明,体裁差异对 NER 性能有显著影响,但影响程度不及文学领域和新闻领域。与新闻领域的 NER 相比,文学领域的 NER 仍有许多需要改进的地方,而且由于文学作品中的实体种类繁多,词汇贫乏 (OOV) 问题更具挑战性。

19.GPT Struct Me: Probing GPT Models on Narrative Entity Extraction

标题:GPT Struct Me:探索叙事实体提取的 GPT 模型

author:Hugo Sousa, Nuno Guimarães, Alípio Jorge, Ricardo Campos

date Time:2023-11-24

paper pdf:http://arxiv.org/pdf/2311.14583v1

摘要
鉴于每天产生的文本数量不断增加,能够从文本数据中提取结构化信息的系统变得越来越重要。拥有一个能以可互操作的方式有效提取此类信息的系统,对于金融、健康或法律等多个领域来说都是一笔宝贵的财富。自然语言处理领域的最新发展带来了强大的语言模型,这些模型在一定程度上可以模仿人类智能。这种有效性提出了一个相关的问题:能否利用这些模型提取结构化信息?在这项工作中,我们通过评估两种最先进的语言模型–GPT-3 和 GPT-3.5(通常称为 ChatGPT)–在提取叙事实体(即事件、参与者和时间表达)方面的能力来解决这个问题。这项研究是在 Text2Story Lusa 数据集上进行的,该数据集收集了 119 篇葡萄牙语新闻文章,其注释框架包括一组实体结构以及若干标签和属性值。我们首先通过对数据集中提供不同程度信息的提示组件进行消减研究,选出最佳提示模板。随后,我们使用最佳模板来评估模型在其余文档中的有效性。结果表明,GPT 模型与开箱即用的基线系统相比具有很强的竞争力,为资源有限的从业人员提供了一个一体化的替代方案。通过研究这些模型在信息提取方面的优势和局限性,我们提出了一些见解,这些见解可以指导该领域未来的改进和探索。

20.Extracting Definienda in Mathematical Scholarly Articles with Transformers

标题:用变换器提取数学学术文章中的定义

author:Shufan Jiang, Pierre Senellart

publish:In the Proceedings of the 2nd Workshop on Information Extraction from
Scientific Publications (WIESP 2023)

date Time:2023-11-21

paper pdf:http://arxiv.org/pdf/2311.12448v1

摘要
我们考虑从学术文章的文本中自动识别数学定义中的定义术语。受基于转换器的自然语言处理应用开发的启发,我们将问题提出为:(a) 使用微调预训练转换器的标记级分类任务;(b) 使用通用大型语言模型 (GPT) 的问题解答任务。我们还提出了一种基于规则的方法,从论文的 LATEX 源中建立标签数据集。实验结果表明,无论是使用最新的(昂贵的)GPT 4 还是根据我们的任务进行微调的更简单的预训练模型,都有可能达到较高的精确度和召回率。

21.Use GPT-J Prompt Generation with RoBERTa for NER Models on Diagnosis Extraction of Periodontal Diagnosis from Electronic Dental Records

标题:将 GPT-J 提示生成与 RoBERTa 一起用于从电子牙科记录中提取牙周诊断的 NER 模型

author:Yao-Shun Chuang, Xiaoqian Jiang, Chun-Teh Lee, Ryan Brandon, Duong Tran, Oluwabunmi Tokede, Muhammad F. Walji

publish:2023 AMIA Annual Symposium, see
https://amia.org/education-events/amia-2023-annual-symposium

date Time:2023-11-17

paper pdf:http://arxiv.org/pdf/2311.10810v1

摘要
本研究探讨了在命名实体识别(NER)任务中生成提示的可用性以及在不同提示设置下的性能。利用 GPT-J 模型生成的提示语直接测试黄金标准,同时生成种子,并通过 spaCy 软件包进一步输入 RoBERTa 模型。在直接测试中,提示中负面示例的比例越低,示例数量越多,结果越好,F1 得分为 0.72。使用 RoBERTa 模型进行训练后,在所有情况下的表现都很一致,F1 得分为 0.92-0.97。该研究强调了种子质量而非数量对哺育 NER 模型的重要性。本研究报告介绍了一种高效、准确地挖掘牙周诊断临床笔记的方法,使研究人员能够利用及时生成方法轻松、快速地建立 NER 模型。

22.Self-Improving for Zero-Shot Named Entity Recognition with Large Language Models

标题:使用大型语言模型进行零点命名实体识别的自我改进

author:Tingyu Xie, Qi Li, Yan Zhang, Zuozhu Liu, Hongwei Wang

publish:Accepted to NAACL 2024 (Main Conference)

date Time:2023-11-15

paper pdf:http://arxiv.org/pdf/2311.08921v3

摘要
探索在命名实体识别(NER)任务中应用功能强大的大型语言模型(LLMs)近来备受关注。这项研究提出了一个无需训练的自改进框架,利用未标注语料库来激发 LLM 的自学习能力,从而推动了使用 LLM 的零次命名实体识别(zero-shot NER)的性能极限。首先,我们利用 LLM 对未标注语料进行自一致性预测,从而获得自标注数据集。其次,我们探索选择可靠注释的各种策略,以形成可靠的自注释数据集。最后,对于每个测试输入,我们从可靠的自注释数据集中检索演示,并通过上下文学习进行推理。对四个基准的实验表明,我们的框架大大提高了性能。通过全面的实验分析,我们发现增加未标注语料的规模或自我改进的迭代次数并不能保证性能的进一步提高,但通过更先进的可靠标注选择策略,性能可能会得到提升。代码和数据可通过 https://github.com/Emma1066/Self-Improve-Zero-Shot-NER 公开获取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值