AI推介-信息抽取(information extraction,NER)论文速览(arXiv方向):2024.02.15-2024.04.15

文章目录~

1.ToNER: Type-oriented Named Entity Recognition with Generative Language Model

标题:ToNER:利用生成式语言模型进行面向类型的命名实体识别

author:Guochao Jiang, Ziqin Luo, Yuchen Shi, Dixuan Wang, Jiaqing Liang, Deqing Yang

publish:Accepted by LREC-COLING 2024

date Time:2024-04-14

paper pdf:http://arxiv.org/pdf/2404.09145v2

摘要
近年来,在命名实体识别(NER)任务中,微调生成模型已被证明比以前基于标记或跨度的模型更强大。研究还发现,与实体相关的信息(如实体类型)能促使模型更好地实现 NER。然而,要事先确定给定句子中确实存在的实体类型并不容易,而且输入过多的潜在实体类型难免会分散模型的注意力。为了发挥实体类型在促进 NER 任务方面的优势,本文提出了一种新颖的 NER 框架,即基于生成模型的 ToNER。在 ToNER 中,我们首先提出了一个类型匹配模型来识别句子中最有可能出现的实体类型。然后,我们添加了一个多二元分类任务来微调生成模型的编码器,从而生成输入句子的精炼表示。此外,我们还为模型添加了一个发现实体类型的辅助任务,以进一步微调模型,从而输出更准确的结果。我们在一些 NER 基准上进行了大量实验,验证了我们提出的策略在以实体类型挖掘为导向的 ToNER 中的有效性。

2.LLMs in Biomedicine: A study on clinical Named Entity Recognition

标题:生物医学硕士:临床命名实体识别研究

author:Masoud Monajatipoor, Jiaxin Yang, Joel Stremmel, Melika Emami, Fazlolah Mohaghegh, Mozhdeh Rouhsedaghat, Kai-Wei Chang

date Time:2024-04-10

paper pdf:http://arxiv.org/pdf/2404.07376v1

摘要
大型语言模型(LLMs)在各种 NLP 任务中表现出卓越的多功能性,但由于医学语言的复杂性和数据的稀缺性,它在生物医学领域遇到了独特的挑战。本文研究了 LLM 在医学领域的应用,探索了提高 LLM 在命名实体识别(NER)任务中性能的策略。具体来说,我们的研究揭示了精心设计的提示语在生物医学中的重要性。有策略地选择上下文中的示例会产生显著的改进,在所有基准数据集上,少量临床 NER 的 F1 分数提高了约 15-20%。此外,我们的研究结果表明,通过提示策略整合外部资源可以缩小通用 LLM 能力与医学 NER 专业需求之间的差距。利用医学知识库,我们受检索增强生成(RAG)启发而提出的方法可以提高 LLM 在零次临床 NER 中的 F1 分数。我们将在发表后公布代码。

3.LTNER: Large Language Model Tagging for Named Entity Recognition with Contextualized Entity Marking

标题:LTNER: 利用上下文实体标记进行命名实体识别的大型语言模型标记法

author:Faren Yan, Peng Yu, Xin Chen

publish:13 pages

date Time:2024-04-08

paper pdf:http://arxiv.org/pdf/2404.05624v1

摘要
近两年来,在自然语言处理中使用 LLM 已成为一种流行趋势,其强大的上下文理解和学习能力激发了学术界和业界专业人士的研究热潮。然而,对于某些 NLP 任务(如 NER),与监督学习方法相比,LLM 的性能仍有不足。在我们的研究中,我们开发了一种名为 LTNER 的 NER 处理框架,其中包含一种革命性的上下文实体标记 Gen 方法。通过利用经济高效的 GPT-3.5 和无需额外训练的上下文学习,我们显著提高了 LLM 处理 NER 任务的准确性。CoNLL03 数据集的 F1 分数从最初的 85.9% 提高到 91.9%,接近监督微调的性能。这一结果使我们对 LLMs 的潜力有了更深入的了解。

4.Enhancing Software-Related Information Extraction via Single-Choice Question Answering with Large Language Models

标题:利用大型语言模型通过单选题回答加强软件相关信息提取

author:Wolfgang Otto, Sharmila Upadhyaya, Stefan Dietze

publish:Accepted at: 1st Workshop on Natural Scientific Language Processing
and Research Knowledge Graphs (NSLP 2024) Co-located with Extended Semantic
Web Conference (ESWC 2024)

date Time:2024-04-08

paper pdf:http://arxiv.org/pdf/2404.05587v2

摘要
本文介绍了我们参与 “软件提及消歧共享任务”(SOMD)的情况,重点是通过使用单选题回答的生成式大语言模型(LLM)改进学术文本中的关系提取。该方法优先使用 GLM 的上下文学习功能来提取与软件相关的实体及其描述属性,如分布信息。我们的方法使用检索增强生成(RAG)技术和用于命名实体识别(NER)和属性 NER 的 GLM 来识别所提取的软件实体之间的关系,为分析学术文献中的软件引文提供了结构化的解决方案。论文详细介绍了我们的方法,展示了在单选质量保证范式中使用 GLMs 如何极大地增强 IE 方法。我们对 SOMD 共享任务的参与强调了精确的软件引用实践的重要性,并展示了我们的系统克服歧义和提取软件提及之间关系的挑战的能力。这为该领域未来的研究和发展奠定了基础。

5.Multi-Task Learning for Features Extraction in Financial Annual Reports

标题:多任务学习提取财务年报中的特征

author:Syrielle Montariol, Matej Martinc, Andraž Pelicon, Senja Pollak, Boshko Koloski, Igor Lončarski, Aljoša Valentinčič

publish:Accepted at MIDAS Workshop at ECML-PKDD 2022

date Time:2024-04-08

paper pdf:http://arxiv.org/pdf/2404.05281v1

摘要
在评估公司的各种绩效指标时,重点正在从严格的财务(定量)公开披露信息转向定性(文本)信息。这些文本数据可以提供有价值的弱信号,例如通过文体特征,对财务业绩或环境、社会和治理(ESG)标准的定量数据进行补充。在这项工作中,我们使用各种多任务学习方法进行金融文本分类,重点关注金融情感、客观性、前瞻性句子预测和 ESG 内容检测。我们提出了不同的方法来结合从不同任务的联合训练中提取的信息;我们的最佳方法强调了在多任务训练中明确添加辅助任务预测作为最终目标任务特征的积极效果。接下来,我们使用这些分类器从 FTSE350 公司的年度报告中提取文本特征,并研究 ESG 定量得分与这些特征之间的联系。

6.Assessing the quality of information extraction

标题:评估信息提取的质量

author:Filip Seitl, Tomáš Kovářík, Soheyla Mirshahi, Jan Kryštůfek, Rastislav Dujava, Matúš Ondreička, Herbert Ullrich, Petr Gronat

date Time:2024-04-05

paper pdf:http://arxiv.org/pdf/2404.04068v2

摘要
大型语言模型的进步显著提高了从非结构化和半结构化数据源中提取信息的效率。随着这些技术成为各种应用中不可或缺的一部分,为信息提取的质量建立一个客观的衡量标准变得势在必行。然而,标注数据的匮乏给这项工作带来了巨大挑战。在本文中,我们引入了一个自动框架来评估信息提取/检索的质量及其完整性。该框架重点关注实体及其属性形式的信息提取。我们讨论了如何处理大型语言模型的输入/输出大小限制,并分析了它们在提取信息时的性能。特别是,我们引入了评估提取质量的分数,并就如何解释这些分数进行了广泛讨论。

7.Intent Detection and Entity Extraction from BioMedical Literature

标题:从生物医学文献中进行意图检测和实体提取

author:Ankan Mullick, Mukur Gupta, Pawan Goyal

publish:Accepted to CL4Health LREC-COLING 2024

date Time:2024-04-04

paper pdf:http://arxiv.org/pdf/2404.03598v1

摘要
生物医学查询在网络搜索中越来越普遍,这反映了人们对获取生物医学文献的兴趣与日俱增。尽管最近对大型语言模型(LLMs)进行了研究,以努力实现通用智能,但它们在替代特定任务和特定领域的自然语言理解方法方面的功效仍然值得怀疑。在本文中,我们通过对生物医学文本中的意图检测和命名实体识别(NER)任务进行全面的实证评估来解决这一问题。我们发现,与通用 LLM 相比,“监督微调”(Supervised Fine Tuned)方法仍然具有相关性,而且更加有效。生物医学转换器模型(如 PubMedBERT)只需 5 个监督示例就能在 NER 任务中超越 ChatGPT。

8.Multi-BERT: Leveraging Adapters and Prompt Tuning for Low-Resource Multi-Domain Adaptation

标题:Multi-BERT:利用适配器和及时调整实现低资源多域适配

author:Parham Abed Azad, Hamid Beigy

date Time:2024-04-02

paper pdf:http://arxiv.org/pdf/2404.02335v1

摘要
文本数量和多样性的快速增长给多领域环境带来了巨大挑战。这些挑战在波斯语名称实体识别(NER)中也同样明显。传统的方法,无论是针对多个领域采用统一的模型,还是针对每个领域采用单独的模型,往往都存在很大的局限性。单个模型往往难以捕捉不同领域的细微差别,而使用多个大型模型又会导致资源紧张,从而使为每个领域训练一个模型变得几乎不切实际。因此,本文介绍了一种由一个核心模型和多组特定领域参数组成的新方法。我们利用提示调整和适配器等技术,并结合附加层,添加可针对特定领域进行训练的参数。这使得模型的性能可与每个领域的单个模型相媲美。在不同正式和非正式数据集上的实验结果表明,通过使用这些附加参数,所提出的模型在性能上大大超过了现有的实用模型。值得注意的是,所提出的模型只需要一个实例进行训练和存储,但却在所有领域都取得了出色的结果,甚至在某些领域超过了最先进的模型。此外,我们还分析了每种适应策略,指出了其优缺点,以及针对波斯语 NER 设置的最佳超参数。最后,我们介绍了一种基于文档的领域检测管道,该管道专为未知文本领域的应用场景定制,增强了本文在实际应用中的适应性和实用性。

9.SCANNER: Knowledge-Enhanced Approach for Robust Multi-modal Named Entity Recognition of Unseen Entities

标题:SCANNER:针对未见实体的鲁棒多模态命名实体识别的知识增强方法

author:Hyunjong Ok, Taeho Kil, Sukmin Seo, Jaeho Lee

publish:13 pages, 7 figures, NAACL 2024

date Time:2024-04-02

paper pdf:http://arxiv.org/pdf/2404.01914v1

摘要
命名实体识别(NER)领域的最新进展推动了这一任务的边界,将视觉信号纳入其中,从而产生了许多变体,包括多模态 NER(MNER)或接地 MNER(GMNER)。这些任务面临的一个主要挑战是,模型应能泛化到训练期间未见过的实体,并能处理带有噪声注释的训练样本。为了解决这一障碍,我们提出了 SCANNER(Span CANdidate detection and recognition for NER),这是一种能够有效处理所有三种 NER 变体的模型。SCANNER 是一个两阶段结构;我们在第一阶段提取实体候选,并将其作为获取知识的查询,从而有效地从各种来源获取知识。我们可以利用这些以实体为中心提取的知识来处理未见实体,从而提高性能。此外,为了应对 NER 数据集中嘈杂注释带来的挑战,我们引入了一种新颖的自蒸馏方法,从而提高了我们的模型在处理具有固有不确定性的训练数据时的鲁棒性和准确性。我们的方法在 NER 基准上表现出极具竞争力的性能,并在 MNER 和 GMNER 基准上超越了现有方法。进一步的分析表明,所提出的蒸馏和知识利用方法提高了我们的模型在各种基准上的性能。

10.OpenChemIE: An Information Extraction Toolkit For Chemistry Literature

标题:OpenChemIE:化学文献信息提取工具包

author:Vincent Fan, Yujie Qian, Alex Wang, Amber Wang, Connor W. Coley, Regina Barzilay

publish:To be submitted to the Journal of Chemical Information and Modeling

date Time:2024-04-01

paper pdf:http://arxiv.org/pdf/2404.01462v1

摘要
从化学文献中提取信息对于为数据驱动化学构建最新的反应数据库至关重要。完整的提取需要结合文本、表格和图表中的信息,而之前的工作主要研究从单一模式中提取反应。在本文中,我们提出了 OpenChemIE 来应对这一复杂的挑战,并实现在文档级提取反应数据。OpenChemIE 分两步解决这一问题:从单个模态中提取相关信息,然后整合结果,得到最终的反应列表。在第一步中,我们采用了专门的神经模型,每个神经模型处理化学信息提取的特定任务,如从文本或图表中解析分子或反应。然后,我们利用化学信息算法整合这些模块的信息,从而从反应条件和底物范围调查中提取精细反应数据。在单独评估时,我们的机器学习模型达到了最先进的性能;在评估我们的管道整体时,我们使用 R 组对具有挑战性的反应方案数据集进行了细致的注释,并取得了 69.5% 的 F1 分数。此外,在与 Reaxys 化学数据库直接比较时,ours 的反应提取结果达到了 64.3% 的准确率。我们以开源软件包的形式免费向公众提供 OpenChemIE,并提供网络接口。

11.On-the-fly Definition Augmentation of LLMs for Biomedical NER

标题:为生物医学核糖核酸(NER)实时扩充 LLM 的定义

author:Monica Munnangi, Sergey Feldman, Byron C Wallace, Silvio Amir, Tom Hope, Aakanksha Naik

publish:To appear at NAACL 2024 (Main)

date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2404.00152v2

摘要
尽管 LLM 具备一般能力,但在生物医学 NER 任务中仍然举步维艰,这是因为存在专业术语和缺乏训练数据。在这项工作中,我们采用了一种新的知识增强方法,将相关概念的定义即时纳入其中,从而提高了 LLM 在有限数据环境下的生物医学 NER 性能。在此过程中,为了给知识扩增提供一个测试平台,我们对提示策略进行了全面的探索。我们的实验表明,定义增强对开放源代码和封闭式 LLM 都很有用。例如,在我们的所有(六个)测试数据集中,它使 GPT-4 性能(F1)相对提高了 15%(平均)。我们进行了广泛的消减和分析,以证明我们的性能改进源于增加了相关的定义知识。我们发现,精心设计的提示策略也能提高 LLM 的性能,使其在少量语料的情况下表现优于经过微调的语言模型。为了促进未来在这个方向上的研究,我们在 https://github.com/allenai/beacon 上发布了我们的代码。

12.RealKIE: Five Novel Datasets for Enterprise Key Information Extraction

标题:RealKIE:用于企业关键信息提取的五个新数据集

author:Benjamin Townsend, Madison May, Christopher Wells

date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20101v1

摘要
我们介绍了 RealKIE,这是一个由五个具有挑战性的数据集组成的基准,旨在推进关键信息提取方法的发展,重点是企业应用。这些数据集包括各种文档,包括美国证券交易委员会 S1 档案、美国保密协议、英国慈善报告、美国联邦通信委员会发票和资源合同。每个数据集都面临着独特的挑战:文本序列化不佳、长文档中注释稀疏以及复杂的表格布局。这些数据集为投资分析和法律数据处理等关键信息提取任务提供了现实的试验场。 除了介绍这些数据集之外,我们还深入介绍了注释过程、文档处理技术和基线建模方法。这有助于开发能够应对实际挑战的 NLP 模型,并支持进一步研究适用于特定行业问题的信息提取技术。 注释数据和 OCR 输出结果可在 https://indicodatasolutions.github.io/RealKIE/ 上下载,重现基线的代码将很快提供。

13.OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition

标题:OmniParser:文本查找、关键信息提取和表格识别的统一框架

author:Jianqiang Wan, Sibo Song, Wenwen Yu, Yuliang Liu, Wenqing Cheng, Fei Huang, Xiang Bai, Cong Yao, Zhibo Yang

publish:CVPR 2024

date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19128v1

摘要
最近,由于对自动文档理解的需求日益增长,以及能够处理基于文档的问题的生成式大语言模型(LLM)的出现,视觉定位文本解析(VsTP)取得了显著进展。人们提出了各种方法来解决 VsTP 这一具有挑战性的问题。然而,由于目标的多样化和模式的异构性,以往的工作通常针对单个任务设计特定的架构和目标,这无意中导致了模式隔离和复杂的工作流程。在本文中,我们提出了一种统一范式,用于在不同场景中解析视觉定位文本。具体来说,我们设计了一种名为 OmniParser 的通用模型,它可以同时处理三种典型的视觉文本解析任务:文本定位、关键信息提取和表格识别。在 OmniParser 中,所有任务共享统一的编码器-解码器架构、统一的目标:点条件文本生成,以及统一的输入和输出表示:提示和结构化序列。广泛的实验证明,尽管 OmniParser 采用了统一、简洁的设计,但它在 7 个数据集上的三个视觉定位文本解析任务中取得了最先进(SOTA)或极具竞争力的性能。代码见 https://github.com/AlibabaResearch/AdvancedLiterateMachinery。

14.Improving Pre-trained Language Model Sensitivity via Mask Specific losses: A case study on Biomedical NER

标题:通过特定掩码损失提高预训练语言模型的灵敏度:生物医学 NER 案例研究

author:Micheal Abaho, Danushka Bollegala, Gary Leeming, Dan Joyce, Iain E Buchan

publish:Paper alrerady accepted for publishing by the NAACL 2024 conference
(main conference paper)

date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.18025v2

摘要
使语言模型(LM)适应新领域通常是通过在特定领域数据上微调预先训练好的语言模型(PLM)来实现的。微调将新知识引入 LM,使其能够理解并高效执行目标领域的任务。但是,如果微调忽略了源领域和目标领域之间的大量差异(如词义差异),就会在无意中造成不敏感。例如,慢性病和压力等词在社交会话中可能被轻描淡写地对待,但在临床上,这些词通常表达的是一种担忧。为了解决微调不敏感的问题,我们提出了掩码特定语言建模(MSLM),这种方法可以在微调过程中通过适当加权特定领域术语(DS-terms)的重要性来有效获取目标领域知识。MSLM 联合屏蔽特定领域术语和一般词语,然后通过确保 LM 因不准确预测特定领域术语而受到比一般词语更大的惩罚,来学习屏蔽特定损失。我们的分析结果表明,MSLM 提高了 LM 的灵敏度和 DS 词的检测率。我们的经验表明,最佳屏蔽率不仅取决于 LM,还取决于数据集和序列长度。我们提出的屏蔽策略优于先进的屏蔽策略,如基于跨度和 PMI 的屏蔽。

15.KC-GenRe: A Knowledge-constrained Generative Re-ranking Method Based on Large Language Models for Knowledge Graph Completion

标题:KC-GenRe:基于大型语言模型的知识约束生成式重新排序方法,用于知识图谱补全

author:Yilin Wang, Minghao Hu, Zhen Huang, Dongsheng Li, Dong Yang, Xicheng Lu

publish:This paper has been accepted for publication in the proceedings of
LREC-COLING 2024

date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17532v1

摘要
知识图谱补全(KGC)的目标是预测实体间缺失的事实。以往的知识图谱重新排序方法大多建立在非生成语言模型上,以获得每个候选者的概率。最近,生成式大语言模型(LLM)在信息提取和对话系统等多项任务中表现出了卓越的性能。利用这些模型对 KGC 进行重新排序,有利于充分利用广泛的预训练知识和强大的生成能力。但是,在完成任务时可能会遇到新的问题,即不匹配、错误排序和遗漏。为此,我们引入了 KC-GenRe,这是一种基于 LLM 的知识约束生成重新排序方法,适用于 KGC。为了克服错配问题,我们将 KGC 重新排序任务表述为由生成式 LLMs 实现的候选标识符排序生成问题。为解决排序错误问题,我们开发了一种知识指导下的交互式训练方法,以提高候选者的识别和排序能力。为解决遗漏问题,我们设计了一种知识增强的约束推理方法,该方法可实现上下文提示和受控生成,从而获得有效的排序。实验结果表明,KG-GenRe 在四个数据集上取得了最先进的性能,与以前的方法相比,MRR 和 Hits@1 指标分别提高了 6.7% 和 7.7%,与不重新排序的方法相比,分别提高了 9.0% 和 11.1%。广泛的分析证明了 KG-GenRe 中各组件的有效性。

16.Extracting Biomedical Entities from Noisy Audio Transcripts

标题:从噪声音频文本中提取生物医学实体

author:Nima Ebadi, Kellen Morgan, Adrian Tan, Billy Linares, Sheri Osborn, Emma Majors, Jeremy Davis, Anthony Rios

publish:Accepted to LREC-COLING 2024

date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17363v1

摘要
自动语音识别(ASR)技术是将口语转录为文本的基础,在临床领域应用广泛,包括简化医疗转录和与电子健康记录(EHR)系统集成。然而,挑战依然存在,特别是当转录内容包含噪音时,自然语言处理(NLP)模型的应用会导致性能大幅下降。命名实体识别(NER)是一项重要的临床任务,尤其受到此类噪声的影响,通常被称为 ASR-NLP 差距。之前的工作主要研究的是 ASR 在干净录音中的效率,在噪声环境下的性能研究方面还存在空白。本文介绍了一种新型数据集 BioASR-NER,旨在弥补生物医学领域的 ASR-NLP 差距,重点是从电话成人认知简测(BTACT)考试中提取药物不良反应和实体提及。我们的数据集全面收集了近 2,000 条干净和噪声录音。为了应对噪音挑战,我们使用 GPT4 提出了一种创新的文本清理方法,研究了零镜头和少镜头两种方法。我们的研究进一步深入到错误分析,揭示了转录软件中的错误类型、GPT4 的纠正方法以及 GPT4 面临的挑战。本文旨在增进对 ASR-NLP 差距的理解和潜在解决方案,最终为加强医疗保健文档实践提供支持。

17.Efficient Information Extraction in Few-Shot Relation Classification through Contrastive Representation Learning

标题:通过对比表征学习,在少量关系分类中高效提取信息

author:Philipp Borchert, Jochen De Weerdt, Marie-Francine Moens

publish:NAACL 2024

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16543v1

摘要
在有限的标注实例中区分实体对之间的关系是少量关系分类中的一项重大挑战。文本数据表示可提取跨越领域、实体和关系的丰富信息。在本文中,我们介绍了一种结合多种句子表征和对比学习来增强信息提取的新方法。虽然关系分类中的表征通常使用实体标记符来提取,但我们认为内部模型表征中的大量信息仍未得到开发。为了解决这个问题,我们建议将多个句子表征(如[CLS]标记、用于提示的[MASK]标记和实体标记)进行对齐。我们的方法采用对比学习,从这些单独的表征中提取互补的判别信息。这对于信息匮乏的低资源环境尤为重要。在没有关系描述等附加信息的情况下,利用多个句子表征在提炼关系分类的鉴别信息方面尤为有效。我们验证了我们的方法的适应性,在包含关系描述的场景中保持了强劲的性能,并展示了其适应不同资源限制的灵活性。

18.Few-shot Named Entity Recognition via Superposition Concept Discrimination

标题:通过叠加概念辨别进行少量命名实体识别

author:Jiawei Chen, Hongyu Lin, Xianpei Han, Yaojie Lu, Shanshan Jiang, Bin Dong, Le Sun

publish:Accepted to LREC-COLING 2024

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16463v1

摘要
少镜头 NER 的目的是利用有限的说明性实例识别目标类型的实体。遗憾的是,少镜头 NER 面临着内在精确泛化问题的严峻挑战,即由于信息不足导致的模糊性,很难准确确定所需的目标类型。本文提出了叠加概念判别器(Superposition Concept Discriminator,SuperCD),通过主动学习范式解决了上述难题。具体来说,首先引入一个概念提取器,从说明性实例中识别叠加概念,每个概念对应一个可能的泛化边界。然后,应用叠加实例检索器从大规模文本语料库中检索这些叠加概念的相应实例。最后,要求注释者对检索到的实例进行注释,这些注释实例与原始说明性实例一起用于学习 FS-NER 模型。为此,我们使用大规模公开知识库学习通用概念提取器和叠加实例检索器。实验表明,SuperCD 可以有效地从说明性实例中识别叠加概念,从大规模语料库中检索叠加实例,并以最小的额外工作量显著提高了少拍 NER 性能。

19.Is There a One-Model-Fits-All Approach to Information Extraction? Revisiting Task Definition Biases

标题:信息提取有万能模型吗?重新审视任务定义偏差

author:Wenhao Huang, Qianyu He, Zhixu Li, Jiaqing Liang, Yanghua Xiao

publish:15 pages, 4 figures

date Time:2024-03-25

paper pdf:http://arxiv.org/pdf/2403.16396v1

摘要
定义偏差是一种会误导模型的负面现象。信息提取中的定义偏差不仅出现在不同领域的数据集之间,也出现在同一领域的数据集内部。我们发现了信息提取中的两种定义偏差:信息提取数据集之间的偏差和信息提取数据集与指令调整数据集之间的偏差。为了系统地研究定义偏差,我们进行了三次探测实验来定量分析定义偏差,并发现统一信息提取和大型语言模型在解决定义偏差方面的局限性。为了缓解信息提取中的定义偏差,我们提出了一个多阶段框架,包括定义偏差测量、偏差感知微调和特定任务偏差缓解。实验结果证明了我们的框架在解决定义偏差方面的有效性。本文资源见 https://github.com/EZ-hwh/definition-bias

20.MRC-based Nested Medical NER with Co-prediction and Adaptive Pre-training

标题:基于 MRC 的嵌套式医学 NER(协同预测和自适应预训练

author:Xiaojing Du, Hanjie Zhao, Danyan Xing, Yuxiang Jia, Hongying Zan

date Time:2024-03-23

paper pdf:http://arxiv.org/pdf/2403.15800v1

摘要
在医学信息提取中,医学命名实体识别(NER)是不可或缺的,它在开发医学知识图谱、增强医学问题解答系统和分析电子病历方面发挥着至关重要的作用。医学 NER 所面临的挑战来自于复杂的嵌套结构和复杂的医学术语,这使其有别于传统领域的同类产品。针对这些复杂性,我们提出了基于机器阅读理解(MRC)的医疗 NER 模型,该模型采用任务自适应预训练策略,以提高模型在医疗领域的能力。同时,我们的模型引入了多词对嵌入和多粒度扩张卷积来增强模型的表示能力,并使用 Biaffine 和 MLP 的组合预测器来提高模型的识别性能。在中文嵌套医疗 NER 的基准 CMeEE 上进行的实验评估表明,我们提出的模型优于与之相比的最先进(SOTA)模型。

21.AutoRE: Document-Level Relation Extraction with Large Language Models

标题:AutoRE:利用大型语言模型进行文档级关系提取

author:Xue Lilong, Zhang Dan, Dong Yuxiao, Tang Jie

publish:11 pages

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14888v1

摘要
大型语言模型(LLM)在理解和生成文本方面表现出了卓越的能力,这促使众多研究人员将其用于信息提取(IE)目的,包括关系提取(RE)。然而,大多数现有方法主要是为句子级关系提取(SentRE)任务而设计的,这些任务通常只包含单句中有限的一组关系和三重事实。此外,某些方法将关系作为候选选项整合到提示模板中,导致处理效率低下,在处理文档级关系提取(DocRE)任务时性能不佳,因为文档级关系提取需要处理分布在给定文档中的多种关系和三重事实,这带来了独特的挑战。为了克服这些局限性,我们引入了 AutoRE,这是一种端到端的 DocRE 模型,它采用了一种名为 RHF(关系-头部-事实)的新型关系提取范式。与现有方法不同,AutoRE 不依赖于已知关系选项的假设,因此更能反映真实世界的场景。此外,我们还利用参数高效微调(PEFT)算法(QLoRA)开发了一个易于扩展的 RE 框架。我们在 RE-DocRED 数据集上的实验展示了 AutoRE 的最佳性能,取得了最先进的结果,在开发集和测试集上分别超过 TAG 10.03% 和 9.03%。

22.Large-Scale Label Interpretation Learning for Few-Shot Named Entity Recognition

标题:针对少量命名实体识别的大规模标签解释学习

author:Jonas Golde, Felix Hamborg, Alan Akbik

publish:8 pages

date Time:2024-03-21

paper pdf:http://arxiv.org/pdf/2403.14222v1

摘要
少量命名实体识别(NER)仅使用少量注释示例来检测文本中的命名实体。一个有前途的研究方向是利用自然语言对每种实体类型进行描述:例如,常用标签 PER 可以口头描述为"‘人实体’"。在最初的标签解释学习阶段,模型会学习如何解释这种对实体类型的口头描述。在随后的少量标签集扩展阶段,该模型将获得以前未见过的实体类型(如 “音乐专辑”)的描述,并选择性地获得少量训练示例,以便对该类型进行少量 NER。在本文中,我们通过大规模增加用于标签解释学习的实体类型的数量和粒度,系统地探索了强语义先验对解释新实体类型的口头化的影响。为此,我们利用实体链接基准创建了一个数据集,该数据集所包含的不同实体类型和描述的数量级比目前使用的数据集要多得多。我们发现,在域内、跨域甚至跨语言环境下,这种增加的信号在零点和少点 NER 中产生了强大的效果。我们的研究结果表明,通过基于启发式数据的优化,我们有很大的潜力来改进少次元 NER。

23.Leveraging Linguistically Enhanced Embeddings for Open Information Extraction

标题:利用语言增强嵌入技术提取开放信息

author:Fauzan Farooqui, Thanmay Jayakumar, Pulkit Mathur, Mansi Radke

publish:Accepted at LREC-COLING 2024 Main Conference, Long Paper

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13903v1

摘要
开放式信息提取(OIE)是自然语言处理(NLP)中的一项结构化预测(SP)任务,旨在从自由文本中提取结构化的 n n nary 元组(通常是主题-相关-对象三元组)。输入文本中的词嵌入可以通过语言特征(通常是语音部分(PoS)和句法依赖解析(SynDP)标签)来增强。然而,过去的增强技术无法利用预训练语言模型(PLM)的强大功能,而这些模型本身几乎没有用于 OIE。为了弥补这一差距,我们首次将语言特征与 Seq2Seq PLM 结合起来用于 OIE。为此,我们引入了两种方法–加权加法和线性化连接。我们的工作可以让任何神经 OIE 架构一次性从 PLM 和语言特征中获得关键性能提升。在我们的设置中,精确度、召回率和 F1 分数分别比基线提高了 24.9%、27.3% 和 14.9%。除此之外,我们还解决了该领域的其他重要挑战:为了减少特征的计算开销,我们率先利用了语义依存解析(SemDP)标签;为了解决当前数据集的缺陷,我们创建了一个干净的合成数据集;最后,我们首次对 SP 模型中的 OIE 行为进行了研究。

24.Clinical information extraction for Low-resource languages with Few-shot learning using Pre-trained language models and Prompting

标题:利用预训练语言模型和提示,通过少量学习为低资源语言提取临床信息

author:Phillip Richter-Pechanski, Philipp Wiesenbach, Dominic M. Schwab, Christina Kiriakou, Nicolas Geis, Christoph Dieterich, Anette Frank

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13369v1

摘要
从临床文件中自动提取医学信息面临着几大挑战:所需临床专业知识成本高、模型预测的可解释性有限、计算资源有限以及隐私法规。最近在领域适应和提示方法方面取得的进展表明,使用轻量级掩蔽语言模型,只需极少的训练数据就能获得很好的结果,而这些模型适合于成熟的可解释性方法。我们首次在低资源环境中对这些方法进行了系统评估,对德国医生信函进行了多类分段分类。我们在 Shapley 值的支持下进行了广泛的分类评估,以验证我们的小型训练数据集的质量,并确保模型预测的可解释性。我们证明,一个轻量级的、与领域相适应的预训练模型,仅用 20 个镜头就比传统分类模型高出 30.5% 的准确率。我们的研究结果可作为低资源临床信息提取项目的流程导向指南。

25.Document Author Classification Using Parsed Language Structure

标题:利用解析语言结构进行文档作者分类

author:Todd K Moon, Jacob H. Gunther

date Time:2024-03-20

paper pdf:http://arxiv.org/pdf/2403.13253v1

摘要
多年来,基于文本的统计属性(如使用非上下文词语的出现率)来检测文本作者身份的工作一直备受关注。在以前的工作中,这些技术被用于确定所有《联邦党人文集》的作者。这种方法在现代检测伪造或人工智能作者身份时可能很有用。统计自然语言解析器的进步为使用语法结构检测作者身份提供了可能。在本文中,我们探索了一种利用统计自然语言解析器提取的语法结构信息检测作者身份的新方法。本文提供了一个概念验证,在一组 “证明文本”(《联邦党人文集》和《Sanditon》)上测试了基于语法结构的作者分类。我们探索了从统计自然语言解析器中提取的几种特征:从任意层次提取的具有一定深度的所有子树;解析树中具有一定深度的有根子树、语篇和按层次划分的语篇。结果发现,将特征投射到低维空间是有帮助的。对这些文档进行的统计实验证明,统计解析器提供的信息实际上有助于区分作者。

26.Automatic Information Extraction From Employment Tribunal Judgements Using Large Language Models

标题:利用大型语言模型从就业法庭判决中自动提取信息

author:Joana Ribeiro de Faria, Huiyuan Xie, Felix Steffek

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12936v1

摘要
法庭记录和判决书是丰富的法律知识宝库,详细记录了案件的复杂性和司法判决背后的理由。从这些文件中提取关键信息可提供案件的简要概述,这对法律专家和公众都至关重要。随着大型语言模型(LLM)的出现,自动信息提取变得越来越可行和高效。本文全面研究了大型语言模型 GPT-4 在英国就业法庭(UKET)案件信息自动提取中的应用。我们仔细评估了 GPT-4 在提取关键信息方面的性能,并通过人工验证过程确保提取数据的准确性和相关性。我们的研究围绕两项主要提取任务展开:第一项任务涉及对法律专家和普通大众都具有重要意义的八个关键方面的一般提取,包括案件事实、索赔要求、法律法规参考、先例参考、一般案件结果和相应标签、详细顺序和补救措施以及裁决理由。第二项任务的重点更加突出,旨在分析所提取的其中三个特征,即事实、诉求和结果,以促进开发一种能够预测就业法纠纷结果的工具。通过分析,我们证明了像 GPT-4 这样的法律信息管理工具在法律信息提取方面可以获得很高的准确性,突出了法律信息管理工具在革新法律信息处理和利用方式方面的潜力,对法律研究和实践具有重要意义。

27.Pipelined Biomedical Event Extraction Rivaling Joint Learning

标题:与联合学习相媲美的流水线生物医学事件提取技术

author:Pengchao Wu, Xuefeng Li, Jinghang Gu, Longhua Qian, Guodong Zhou

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12386v1

摘要
生物医学事件提取是一项从生物医学文本中获取事件的信息提取任务,其目标包括事件的类型、触发因素和涉及的相应参数。传统的生物医学事件提取通常采用流水线式方法,包括触发器识别、参数角色识别,最后通过特定规则或机器学习构建事件。在本文中,我们提出了一种基于 BERT 预训练模型的 n-ary 关系提取方法来构建绑定事件,以捕捉事件上下文及其参与者的语义信息。实验结果表明,我们的方法在 BioNLP 共享任务的 GE11 和 GE13 语料库上取得了可喜的成果,F1 分数分别为 63.14% 和 59.40%。实验结果表明,通过显著提高绑定事件的性能,流水线事件提取方法的整体性能甚至超过了当前的联合学习方法。

28.Span-Oriented Information Extraction – A Unifying Perspective on Information Extraction

标题:面向跨度的信息提取–信息提取的统一视角

author:Yifan Ding, Michael Yankoski, Tim Weninger

publish:35 Pages, 1 Figure

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.15453v1

摘要
信息提取是指自然语言处理(NLP)中的一系列任务,用于识别文本中的子序列及其标签。多年来,这些任务一直被用于链接提取相关信息以及将自由文本链接到结构化数据。然而,信息提取任务之间的异质性阻碍了这一领域的进展。因此,我们提供了一个统一的视角,以我们定义的文本跨度为中心。然后,我们将这些看似不协调的任务重新定位到这一统一的视角中,并将各种各样的信息提取任务重新表述为相同的跨度导向信息提取基本任务的变体。

29.Rules still work for Open Information Extraction

标题:规则仍适用于开放式信息提取

author:Jialin Hua, Liangqing Luo, Weiying Ping, Yan Liao, Chunhai Tao, Xuewen Lub

date Time:2024-03-16

paper pdf:http://arxiv.org/pdf/2403.10758v1

摘要
开放式信息提取(OIE)旨在从自然语言文本中提取表层关系及其相应的论据,而不受域的限制。本文针对中文文本提出了一种创新的开放信息提取模型 APRCOIE。与以往的模型不同,我们的模型可以自主生成提取模式。该模型为中文 OIE 定义了一种新的模式形式,并提出了一种自动模式生成方法。这样,该模型就能处理各种复杂多样的中文语法现象。我们设计了一个基于张量计算的初步过滤器,以高效地进行提取过程。为了训练模型,我们对大规模的中文 OIE 数据集进行了人工标注。在比较评估中,我们证明了 APRCOIE 的性能优于最先进的中文 OIE 模型,并大大扩展了可实现的 OIE 性能边界。APRCOIE 的代码和标注数据集发布在 GitHub 上 (https://github.com/jialin666/APRCOIE_v1)

30.Embedded Translations for Low-resource Automated Glossing

标题:低资源自动词汇嵌入式翻译

author:Changbing Yang, Garrett Nicolai, Miikka Silfverberg

date Time:2024-03-13

paper pdf:http://arxiv.org/pdf/2403.08189v1

摘要
我们研究了低资源环境下的自动行间润色。我们用从跨行词汇文本中提取的嵌入式翻译信息来增强硬注意神经模型。在使用大型语言模型(特别是 BERT 和 T5)对这些翻译进行编码后,我们引入了字符级解码器来生成词汇输出。在这些增强功能的帮助下,我们的模型在 SIGMORPHON 2023 年跨行词汇共享任务的数据集上比之前的技术水平平均提高了 3.97%-points。在模拟的超低资源环境中,我们的系统仅在 100 个句子上进行了训练,与普通的硬注意基线相比,平均提高了 9.78 个百分点。这些结果凸显了翻译信息在提高系统性能方面的关键作用,尤其是在处理和解释少量数据源时。我们在共享任务数据集上的实验结果表明,与现有技术水平相比,我们的系统有了显著的进步。

31.KnowCoder: Coding Structured Knowledge into LLMs for Universal Information Extraction

标题:KnowCoder:将结构化知识编码为 LLM,用于通用信息提取

author:Zixuan Li, Yutao Zeng, Yuxin Zuo, Weicheng Ren, Wenxuan Liu, Miao Su, Yucan Guo, Yantao Liu, Xiang Li, Zhilei Hu, Long Bai, Wei Li, Yidan Liu, Pan Yang, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng

date Time:2024-03-12

paper pdf:http://arxiv.org/pdf/2403.07969v2

摘要
在本文中,我们提出了通过代码生成进行通用信息提取(UIE)的大语言模型(LLM)–KnowCoder。KnowCoder旨在开发一种大型语言模型(LLM)易于理解的统一模式表示法,以及一种有效的学习框架,以鼓励大型语言模型(LLM)遵循模式并准确提取结构化知识。为了实现这些目标,KnowCoder引入了一种代码式模式表示方法,将不同的模式统一转换为Python类,从而以一种对本地语言学习者友好的方式捕获复杂的模式信息,例如UIE中任务之间的约束。我们进一步构建了一个代码风格的模式库,涵盖了超过 30,000 \textbf{30,000} 30,000 的知识类型,据我们所知,这是 UIE 中最大的模式库。为了简化LLMs的学习过程,KnowCoder包含一个两阶段学习框架,通过代码预训练增强其模式理解能力,通过指令调整增强其模式跟踪能力。在对约1.5 B 的自动构建数据进行代码预训练后, K n o w C o d e r 已经获得了显著的泛化能力,与 L L a M A 2 相比, K n o w C o d e r 在少数几个镜头的设置下实现了 B的自动构建数据进行代码预训练后,KnowCoder已经获得了显著的泛化能力,与LLaMA2相比,KnowCoder在少数几个镜头的设置下实现了 B的自动构建数据进行代码预训练后,KnowCoder已经获得了显著的泛化能力,与LLaMA2相比,KnowCoder在少数几个镜头的设置下实现了\textbf{49.8%}$ F1的相对改进。经过指令调整后,KnowCoder在未见模式上进一步展现出强大的泛化能力,与sota基线相比,在零镜头设置和低资源设置下,分别实现了高达KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: \textbf{12.5%}KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: \textbf{21.9%}的泛化。此外,基于我们统一的模式表示,各种人类标注的数据集可同时用于完善KnowCoder,在有监督的环境下,KnowCoder实现了高达KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: \textbf{7.5%}的显著改进。

32.ChatUIE: Exploring Chat-based Unified Information Extraction using Large Language Models

标题:ChatUIE:探索使用大型语言模型进行基于聊天的统一信息提取

author:Jun Xu, Mengshu Sun, Zhiqiang Zhang, Jun Zhou

publish:Accepted by LREC-COLING 2024

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05132v1

摘要
最近,大型语言模型在普通聊天中的表现令人印象深刻。但是,它们在特定领域的能力,尤其是信息提取方面,还存在一定的局限性。对于以前基于提示的方法来说,从偏离已知模式或指令的自然语言中提取结构化信息具有挑战性。这促使我们探索在基于聊天的语言模型中进行特定领域建模,作为从自然语言中提取结构化信息的解决方案。在本文中,我们介绍了基于 ChatGLM 的创新型统一信息提取框架 ChatUIE。同时,我们还采用了强化学习来改进和调整各种涉及混乱和有限样本的任务。此外,我们还整合了生成约束,以解决生成输入中不存在的元素的问题。我们的实验结果表明,ChatUIE 可以显著提高信息提取的性能,而聊天能力却略有下降。

33.Automating the Information Extraction from Semi-Structured Interview Transcripts

标题:从半结构化访谈记录中自动提取信息

author:Angelina Parfenova

publish:Accepted by WebConf (WWW’2024)

date Time:2024-03-07

paper pdf:http://arxiv.org/pdf/2403.04819v1

摘要
本文探讨了从半结构化访谈记录中提取信息的自动化系统的开发和应用。鉴于传统定性分析方法(如编码)的劳动密集性质,人们对能够促进分析过程的工具有很大的需求。我们的研究调查了各种主题建模技术,得出的结论是,分析访谈文本的最佳模型是 BERT 嵌入和 HDBSCAN 聚类的组合。我们介绍了一个用户友好型软件原型,它能让研究人员(包括没有编程技能的研究人员)高效地处理访谈数据的主题结构并将其可视化。该工具不仅有助于定性分析的初始阶段,还能让人深入了解所揭示的主题之间的相互联系,从而提高定性分析的深度。

34.Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet?

标题:分析和调整大型语言模型,实现少镜头多语言 NLU:我们成功了吗?

author:Evgeniia Razumovskaia, Ivan Vulić, Anna Korhonen

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.01929v1

摘要
有监督的微调(SFT)、有监督的指令调整(SIT)和上下文学习(ICL)是少数几次学习的三种可供选择的、事实上的标准方法。最近,随着 LLM 的出现,ICL 因其简单性和样本效率而大受欢迎。之前的研究只对这些方法如何用于多语种少点学习进行了有限的调查,迄今为止的重点主要集中在它们的性能上。在这项工作中,我们对这三种方法进行了广泛而系统的比较,在 6 种高低资源语言、3 种不同的 NLU 任务以及大量语言和领域设置中对它们进行了测试。重要的是,性能只是比较的一个方面,我们还从计算、推理和财务成本的角度分析了这些方法。我们的观察结果表明,有监督的指令调整在性能和资源需求之间实现了最佳平衡。作为另一项贡献,我们分析了预训练 LLM 的目标语言适应性的影响,发现标准适应性方法可以(表面上)提高目标语言生成能力,但通过 ICL 激发的语言理解能力并没有提高,而且仍然有限,尤其是对低资源语言而言,得分较低。

35.VerifiNER: Verification-augmented NER via Knowledge-grounded Reasoning with Large Language Models

标题:VerifiNER:通过大型语言模型的知识基础推理实现验证增强型 NER

author:Seoyeon Kim, Kwangwook Seo, Hyungjoo Chae, Jinyoung Yeo, Dongha Lee

publish:Accepted to ACL 2024

date Time:2024-02-28

paper pdf:http://arxiv.org/pdf/2402.18374v2

摘要
最近,特定领域命名实体识别(NER)方法(如生物医学 NER)取得了显著进步。然而,这些方法仍然缺乏忠实性,会产生错误的预测。我们认为,实体知识有助于验证预测的正确性。尽管知识很有用,但利用知识解决这些错误并非易事,因为知识本身并不能直接指示地面实况标签。为此,我们提出了一个事后验证框架–VerifiNER,它能利用知识识别现有 NER 方法中的错误,并将其修正为更忠实的预测。我们的框架利用大型语言模型的推理能力,在验证过程中充分立足于知识和上下文信息。我们在生物医学数据集上进行了大量实验,验证了 VerifiNER 的有效性。结果表明,作为一种与模型无关的方法,VerifiNER 可以成功验证现有模型的错误。对域外和低资源环境的进一步分析表明,VerifiNER 在实际应用中非常有用。

36.DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem

标题:DistALANER:开源软件生态系统中的远程监督主动学习增强命名实体识别技术

author:Somnath Banerjee, Avik Dutta, Aaditya Agrawal, Rima Hazra, Animesh Mukherjee

publish:Accepted at ECML-PKDD 2024 (Long Paper)

date Time:2024-02-25

paper pdf:http://arxiv.org/pdf/2402.16159v5

摘要
随着人工智能革命的到来,在开源软件系统、医疗保健系统、银行系统、交通系统等不同领域建立自动化系统为专业人员提供支持的趋势日益突出。为此类系统提供自动化支持工具的一个关键要求是尽早识别命名实体,这是开发专业功能的基础。然而,由于每个领域的特殊性、不同的技术术语和专业语言,对现有数据进行专家注释变得既昂贵又具有挑战性。鉴于这些挑战,本文提出了一种专门针对开源软件系统的新型命名实体识别(NER)技术。我们的方法旨在通过采用全面的两步远距离监督注释流程来解决注释软件数据稀缺的问题。这一过程战略性地利用了语言启发法、独特的查找表、外部知识源和主动学习方法。通过利用这些强大的技术,我们不仅提高了模型性能,还有效缓解了与成本和专家注释者稀缺相关的限制。值得注意的是,我们的模型大大超过了最先进的 LLM。我们还展示了 NER 在关系提取这一下游任务中的有效性。

37.Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach

标题:重新审视远距离监督 NER:一个新基准和一种简单方法

author:Yuepei Li, Kang Zhou, Qiao Qiao, Qing Wang, Qi Li

date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.14948v2

摘要
本文深入探讨了远程监督(DS-NER)框架下的命名实体识别(NER),其主要挑战在于假阳性、假阴性和阳性类型错误等固有错误导致的标签质量下降。我们使用名为 QTL 的真实基准数据集对当前 DS-NER 方法的功效进行了严格评估,结果发现这些方法的性能往往达不到预期。为了解决普遍存在的标签噪声问题,我们引入了一种简单而有效的方法–基于课程的正向无标签学习(Curriculum-based Positive-Unlabeled Learning CuPUL),该方法在训练过程中战略性地从 "简单 "且较干净的样本开始,以增强模型对噪声样本的适应能力。我们的实证结果表明,CuPUL 能够显著降低噪声标签的影响,并优于现有方法。QTL 数据集和我们的代码可在 GitHub 上获取。

38.IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus

标题:IEPile:发掘基于模式的大规模信息提取语料库

author:Honghao Gui, Lin Yuan, Hongbin Ye, Ningyu Zhang, Mengshu Sun, Lei Liang, Huajun Chen

publish:ACL 2024 (short); 21 pages; Github: https://github.com/zjunlp/IEPile

date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.14710v3

摘要
大型语言模型(LLMs)在各个领域都展现出非凡的潜力;然而,它们在信息提取(IE)方面却表现出明显的性能差距。需要注意的是,高质量的教学数据是提高 LLMs 特定能力的关键,而当前的 IE 数据集往往规模较小、支离破碎,并且缺乏标准化模式。为此,我们引入了 IEPile,这是一个全面的双语(英语和中文)IE 教学语料库,包含约 0.32B 个词条。我们通过收集和清理 33 个现有的 IE 数据集来构建 IEPile,并引入基于模式的指令生成来挖掘大规模语料库。通过实验,IEPile 提高了 IE 的 LLM 性能,在零点泛化方面有显著改进。我们开源了资源和预训练模型,希望为 NLP 社区提供有价值的支持。

39.LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named Entity Recognition

标题:LLM-DA:通过大型语言模型进行数据扩充,实现少量命名实体识别

author:Junjie Ye, Nuo Xu, Yikun Wang, Jie Zhou, Qi Zhang, Tao Gui, Xuanjing Huang

date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.14568v1

摘要
尽管大型语言模型(LLM)的能力令人印象深刻,但它们在信息提取任务中的表现仍不尽如人意。然而,它们卓越的重写能力和广泛的世界知识为改进这些任务提供了宝贵的见解。在本文中,我们提出了一种基于 LLMs 的新型数据增强技术– L L M − D A LLM-DA LLMDA,用于少量信息提取任务。为了克服现有数据扩增方法的局限性,即损害语义完整性和解决 LLM 生成文本中固有的不确定性,我们通过在上下文和实体两个层面扩增原始数据,充分利用了 NER 任务的显著特征。我们的方法包括采用 14 种上下文重写策略,设计同类型的实体替换,以及注入噪声以增强鲁棒性。广泛的实验证明了我们的方法在利用有限数据提高 NER 模型性能方面的有效性。此外,额外的分析还提供了进一步的证据,证明我们生成的数据质量超过了其他现有方法。

40.Creating a Fine Grained Entity Type Taxonomy Using LLMs

标题:使用 LLM 创建细粒度实体类型分类法

author:Michael Gunn, Dohyun Park, Nidhish Kamath

date Time:2024-02-19

paper pdf:http://arxiv.org/pdf/2402.12557v1

摘要
在本研究中,我们研究了 GPT-4 及其高级迭代 GPT-4 Turbo 在自主开发详细实体类型分类法方面的潜力。我们的目标是构建一个全面的分类法,从广泛的实体类型分类开始–包括对象、时间、地点、组织、事件、行动和主题–类似于现有的人工编辑分类法。然后,利用 GPT-4 的内部知识库,通过迭代提示技术逐步完善这一分类法。最终形成了包含 5000 多种细微实体类型的广泛分类法,并在主观评估中表现出卓越的质量。 我们采用了一种简单而有效的提示策略,使分类法能够动态扩展。这一详细分类法的实际应用多种多样,意义重大。它有助于通过基于模式的组合创建新的、更复杂的分支,并显著增强了信息提取任务,如关系提取和事件论据提取。我们的方法不仅为分类法的创建引入了一种创新方法,还为在各种计算语言学和人工智能相关领域应用此类分类法开辟了新途径。

41.C-ICL: Contrastive In-context Learning for Information Extraction

标题:C-ICL:用于信息提取的上下文对比学习(Contrastive In-context Learning for Information Extraction

author:Ying Mo, Jiahao Liu, Jian Yang, Qifan Wang, Shun Zhang, Jingang Wang, Zhoujun Li

publish:15 pages

date Time:2024-02-17

paper pdf:http://arxiv.org/pdf/2402.11254v2

摘要
在信息提取(IE)领域,人们对探索高级大型语言模型(LLM)能力的兴趣与日俱增,尤其关注与命名实体识别(NER)和关系提取(RE)相关的任务。虽然研究人员正在探索通过 LLMs 的上下文学习使用少量信息提取,但他们往往只关注使用正确或积极的示例进行演示,而忽视了将错误或消极示例纳入学习过程的潜在价值。在本文中,我们提出了 c-ICL,这是一种新颖的少量拍摄技术,它利用正确和不正确的样本结构来创建上下文学习演示。这种方法通过利用不仅包含正面样本而且包含其背后推理的提示,增强了 LLM 提取实体和关系的能力。这种方法可以识别和纠正潜在的界面错误。具体来说,我们提出的方法利用了硬阴性样本和测试最近的阳性邻居中固有的上下文信息和有价值的信息,然后应用了基于 LLM 的上下文学习演示。我们在各种数据集上进行的实验表明,c-ICL 的性能优于之前的几枪式上下文学习方法,在广泛的相关任务中实现了性能的大幅提升。这些改进值得一提,展示了我们的方法在各种场景中的通用性。

42.LinkNER: Linking Local Named Entity Recognition Models to Large Language Models using Uncertainty

标题:LinkNER:利用不确定性将本地命名实体识别模型链接到大型语言模型

author:Zhen Zhang, Yuhua Zhao, Hang Gao, Mengting Hu

publish:Accepted by WebConf (WWW’2024)

date Time:2024-02-16

paper pdf:http://arxiv.org/pdf/2402.10573v2

摘要
命名实体识别(NER)是自然语言理解的一项基本任务,对网络内容分析、搜索引擎和信息检索系统有直接影响。微调后的 NER 模型在标准 NER 基准上表现出令人满意的性能。然而,由于微调数据有限且缺乏知识,它在未见实体识别方面表现不佳。因此,NER 模型在网络相关应用中的可用性和可靠性大打折扣。相反,像 GPT-4 这样的大型语言模型(LLM)拥有广泛的外部知识,但研究表明,它们在 NER 任务中缺乏专业性。此外,非公开和大规模的权重也给 LLM 的调整带来了困难。为了应对这些挑战,我们提出了一种将小型微调模型与 LLMs(LinkNER)相结合的框架,以及一种称为 RDC 的基于不确定性的链接策略,它能使微调模型与黑盒 LLMs 相辅相成,从而获得更好的性能。我们使用标准 NER 测试集和高噪声社交媒体数据集进行了实验。LinkNER 提高了 NER 任务的性能,在鲁棒性测试中明显超过了 SOTA 模型。我们还定量分析了不确定性估计方法、LLM 和上下文学习等关键组件对不同 NER 任务的影响,并提出了与网络相关的具体建议。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值