AI推介-信息抽取(information extraction,NER)论文速览(arXiv方向):2023.10.15-2023.11.15

文章目录~

1.GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer

标题:GLiNER:使用双向变换器的通用命名实体识别模型

author:Urchade Zaratiana, Nadi Tomeh, Pierre Holat, Thierry Charnois

publish:Work in progress

date Time:2023-11-14

paper pdf:http://arxiv.org/pdf/2311.08526v1

摘要
命名实体识别(NER)在各种自然语言处理(NLP)应用中至关重要。传统的 NER 模型虽然有效,但仅限于一组预定义的实体类型。相比之下,大型语言模型(LLM)可以通过自然语言指令提取任意实体,具有更大的灵活性。然而,它们的规模和成本,尤其是通过像 ChatGPT 这样的应用程序接口进行访问时的规模和成本,使它们在资源有限的情况下变得不切实际。在本文中,我们介绍了一种经过训练的紧凑型 NER 模型,可以识别任何类型的实体。利用双向变压器编码器,我们的模型 GLiNER 可以实现并行实体提取,这是与 LLMs 缓慢的顺序标记生成相比的一个优势。通过全面的测试,GLiNER 表现出了强劲的性能,在各种 NER 基准的零点评估中,GLiNER 的表现优于 ChatGPT 和微调 LLMs。

2.Distantly-Supervised Named Entity Recognition with Uncertainty-aware Teacher Learning and Student-student Collaborative Learning

标题:利用不确定性感知的教师学习和师生协作学习进行远程监督命名实体识别

author:Helan Hu, Shuzheng Si, Haozhe Zhao, Shuang Zeng, Kaikai An, Zefan Cai, Baobao Chang

date Time:2023-11-14

paper pdf:http://arxiv.org/pdf/2311.08010v1

摘要
远程监督命名实体识别(DS-NER)有效地减轻了标注的负担,但同时也受到标签噪声的影响。最近的研究试图采用师生框架来逐步完善训练标签,提高整体鲁棒性。然而,我们认为这些师生法取得的性能有限,因为不良的网络校准会产生错误的伪标签样本,从而导致错误传播。因此,我们试图通过以下方法来缓解这一问题:(1) 不确定性感知教师学习法,利用预测的不确定性来指导伪标签的选择,避免自我训练阶段错误伪标签的数量。(2) 学生-学生协作学习(Student-student Collaborative Learning):允许在两个学生网络之间传递可靠的标签,而不是完全依赖教师提供的所有伪标签。同时,这种方法允许充分探索错误标签样本,而不是简单地过滤不可靠的伪标签样本。在五个 DS-NER 数据集上的大量实验结果表明,我们的方法优于最先进的师生方法。

3.PolyIE: A Dataset of Information Extraction from Polymer Material Scientific Literature

标题:PolyIE:从聚合物材料科学文献中提取信息的数据集

author:Jerry Junyang Cheung, Yuchen Zhuang, Yinghao Li, Pranav Shetty, Wantian Zhao, Sanjeev Grampurohit, Rampi Ramprasad, Chao Zhang

publish:Work in progress

date Time:2023-11-13

paper pdf:http://arxiv.org/pdf/2311.07715v1

摘要
旨在从科学文献中自动提取信息的科学信息提取(SciIE)变得比以往任何时候都更加重要。然而,高分子材料是我们日常生活中广泛使用的一类重要材料,目前还没有针对高分子材料的 SciIE 数据集。为了填补这一空白,我们推出了聚合物材料的新 SciIE 数据集 POLYIE。POLYIE 由 146 篇长篇聚合物学术论文编辑而成,这些文章由领域专家注释了不同的命名实体(即材料、属性、值、条件)及其 N-ary 关系。由于实体的词汇格式多种多样、实体之间存在歧义以及关系长度可变,POLYIE 面临着一些独特的挑战。我们评估了 POLYIE 上最先进的命名实体提取和关系提取模型,分析了它们的优缺点,并强调了这些模型的一些困难之处。据我们所知,POLYIE 是首个针对高分子材料的 SciIE 基准,我们希望它能为这一具有挑战性的任务带来更多的研究成果。我们的代码和数据可在以下网址获取:https://github.com/jerry3027/PolyIE。

4.Mirror: A Universal Framework for Various Information Extraction Tasks

标题:镜像适用于各种信息提取任务的通用框架

author:Tong Zhu, Junfei Ren, Zijian Yu, Mengsong Wu, Guoliang Zhang, Xiaoye Qu, Wenliang Chen, Zhefeng Wang, Baoxing Huai, Min Zhang

publish:Accepted to EMNLP23 main conference

date Time:2023-11-09

paper pdf:http://arxiv.org/pdf/2311.05419v2

摘要
由于数据格式的多样性和任务的差异性,信息提取任务之间的知识共享一直是一项挑战。同时,这种分歧导致信息浪费,增加了在实际场景中构建复杂应用的难度。最近的研究通常将信息提取任务表述为三元组提取问题。然而,这种范式不支持多跨度和 nary 提取,导致通用性不强。为此,我们将 IE 问题重组为统一的多槽元组,并为各种 IE 任务提出了一个通用框架,即 Mirror。具体来说,我们将现有的 IE 任务重塑为多跨循环图提取问题,并设计了一种非自回归图解码算法,只需一步即可提取所有跨度。值得注意的是,这种图结构具有惊人的通用性,它不仅支持复杂的 IE 任务,还支持机器阅读理解和分类任务。我们手动构建了一个包含 57 个数据集的语料库用于模型预训练,并在 8 个下游任务的 30 个数据集上进行了实验。实验结果表明,我们的模型具有很好的兼容性,在少镜头和零镜头设置下,其性能优于或达到与 SOTA 系统相当的水平。有关代码、模型权重和预训练语料库,请访问 https://github.com/Spico197/Mirror 。

5.RankAug: Augmented data ranking for text classification

标题:RankAug:用于文本分类的增强数据排名

author:Tiasa Singha Roy, Priyam Basu

publish:Accepted at the GEM workshop at EMNLP 2023

date Time:2023-11-08

paper pdf:http://arxiv.org/pdf/2311.04535v1

摘要
有关数据生成和增强的研究主要集中在增强生成模型上,在探索和改进合成数据评估方法方面存在明显差距。在生成数据过滤的背景下,有几种文本相似度指标会影响特定自然语言理解(NLU)任务的性能,特别是在意图和情感分类方面。在本研究中,我们提出了一种文本排名方法 RankAug,它可以检测并筛选出在词法和句法多样性方面意义最相似的顶级增强文本。通过在多个数据集上进行的实验,我们证明了明智地选择过滤技术可以大幅提高代表性不足的类别的分类准确率,最高可达 35%。

6.Leveraging Structured Information for Explainable Multi-hop Question Answering and Reasoning

标题:利用结构化信息进行可解释的多跳问题解答和推理

author:Ruosen Li, Xinya Du

publish:Findings of EMNLP 2023

date Time:2023-11-07

paper pdf:http://arxiv.org/pdf/2311.03734v1

摘要
包括大型语言模型(LLMs)在内的神经模型在多跳问题解答方面表现出色。为了激发 LLM 的推理能力,最近的研究提出使用思维链(CoT)机制来生成推理链和答案,从而增强了模型进行多跳推理的能力。然而,一些挑战依然存在:如推理不准确、幻觉和缺乏可解释性等。另一方面,信息提取(IE)可以识别与文本相关的实体、关系和事件。提取的结构化信息可以很容易地被人类和机器解读(Grishman,2019)。在这项工作中,我们研究了构建和利用提取的语义结构(图)进行多跳问题解答,尤其是推理过程。实证结果和人工评估表明,我们的框架:在两个基准数据集上生成了更忠实的推理链,并大幅提高了质量保证性能。此外,与生成的推理链和基于显著性的解释相比,提取的结构本身自然会提供人类更喜欢的基础解释。

7.Injecting Categorical Labels and Syntactic Information into Biomedical NER

标题:在生物医学 NER 中注入分类标签和句法信息

author:Sumam Francis, Marie-Francine Moens

publish:Proceedings of the 18th Conference on Computational Intelligence
Methods for Bioinformatics & Biostatistics (CIBB 2023)

date Time:2023-11-06

paper pdf:http://arxiv.org/pdf/2311.03113v1

摘要
我们提出了一种简单的方法,通过在模型中注入分类标签和语篇(POS)信息来改进生物医学命名实体识别(NER)。在第一种方法中,我们首先训练一个序列级分类器,将句子分类,从而获得句子级标签(分类标签)。通过将标签修改为自然语言模板,将序列分类器建模为蕴含问题。这有助于提高分类器的准确性。此外,这种标签信息还被注入到 NER 模型中。在本文中,我们展示了表示这些标签和 POS 属性并将其注入 NER 模型的有效方法。在第二种方法中,我们联合学习分类标签和 NER 标签。在这里,我们还将 POS 标记注入模型,以增加模型的句法上下文。在三个基准数据集上进行的实验表明,将分类标签信息与句法上下文结合起来非常有用,其效果优于基于 BERT 的基准模型。

8.Retrieval-Augmented Code Generation for Universal Information Extraction

标题:通用信息提取的检索增强代码生成

author:Yucan Guo, Zixuan Li, Xiaolong Jin, Yantao Liu, Yutao Zeng, Wenxuan Liu, Xiang Li, Pan Yang, Long Bai, Jiafeng Guo, Xueqi Cheng

date Time:2023-11-06

paper pdf:http://arxiv.org/pdf/2311.02962v1

摘要
信息提取(IE)的目的是从自然语言文本中提取结构性知识(如实体、关系、事件等),由于特定的任务模式和复杂的文本表达,这给现有方法带来了挑战。代码作为一种典型的形式化语言,能够通用地描述各种模式下的结构知识。另一方面,基于代码和文本训练的大语言模型(LLMs)已经证明了将文本转化为代码的强大能力,这为信息环境任务提供了可行的解决方案。因此,在本文中,我们提出了一种基于 LLM 的通用检索增强代码生成框架,称为 Code4UIE,用于 IE 任务。具体来说,Code4UIE 采用 Python 类,以通用方式定义各种结构知识的特定任务模式。这样,在这些模式下提取知识就可以转化为生成代码,将预定义的 Python 类与文本中的信息实例化。为了更精确地生成这些代码,Code4UIE 采用了上下文学习机制,通过示例来指导 LLM。为了针对不同任务获取合适的示例,Code4UIE 探索了多种示例检索策略,这些策略可以检索到与给定文本语义相似的示例。在九个数据集上对五个具有代表性的 IE 任务进行的广泛实验证明了 Code4UIE 框架的有效性。

9.Less than One-shot: Named Entity Recognition via Extremely Weak Supervision

标题:小于一枪:通过极弱监督进行命名实体识别

author:Letian Peng, Zihan Wang, Jingbo Shang

publish:Accepted to Findings of EMNLP 2023

date Time:2023-11-06

paper pdf:http://arxiv.org/pdf/2311.02861v1

摘要
我们研究了极弱监督(XWS)环境下的命名实体识别(NER)问题,在这种环境下,每种类型只有一个无上下文的实体示例。可以看出,就监督量而言,XWS 比单次监督要轻,我们提出了一种新方法 X-NER,它可以超越最先进的单次 NER 方法。我们首先从未标明的训练语料库中挖掘与示例实体相似的实体跨度。我们发现,与利用语言模型中的实体跨度表示相比,比较跨度被实体示例替换前后的上下文分布更为有效。然后,我们利用排名靠前的跨度作为伪标签来训练 NER 标记。在 4 个 NER 数据集上进行的大量实验和分析表明,X-NER 具有卓越的端到端 NER 性能,明显优于使用 1 次监督和 ChatGPT 注释的最先进的少次方法。最后,我们的 X-NER 具有几个显著的特性,如继承了底层语言模型的跨语言能力。

10.Relation Extraction Model Based on Semantic Enhancement Mechanism

标题:基于语义增强机制的关系提取模型

author:Peiyu Liu, Junping Du, Yingxia Shao, Zeli Guan

date Time:2023-11-05

paper pdf:http://arxiv.org/pdf/2311.02564v1

摘要
关系提取是自然语言处理领域中与信息提取相关的基本任务之一,是信息提取、自然语言理解和信息检索领域的重要环节和核心任务。现有的关系提取方法都不能有效解决三重重叠问题。本文提出的 CasAug 模型基于 CasRel 框架,结合语义增强机制,可以在一定程度上解决这一问题。CasAug 模型通过增加语义增强机制来增强识别出的可能主体的语义。首先,根据可能主体的语义编码,对可能主体进行预分类,然后结合主体词库计算语义相似度,得到可能主体的相似词汇。根据得到的相似词汇,通过关注机制计算不同关系中的每个词。对于可能主体的贡献,最后结合关系预分类结果,对每个关系的增强语义进行加权,找到可能主体的增强语义,并将与可能主体相结合的增强语义发送给对象和关系提取模块。完成最终的关系三元组提取。实验结果表明,与基线模型相比,本文提出的 CasAug 模型提高了关系提取的效果,CasAug 处理重叠问题和提取多重关系的能力也优于基线模型,说明本文提出的语义增强机制可以进一步减少对冗余关系的判断,缓解三元组重叠问题。

11.Investigating Deep-Learning NLP for Automating the Extraction of Oncology Efficacy Endpoints from Scientific Literature

标题:从科学文献中自动提取肿瘤疗效终点的深度学习 NLP 研究

author:Aline Gendrin-Brokmann, Eden Harrison, Julianne Noveras, Leonidas Souliotis, Harris Vince, Ines Smit, Francisco Costa, David Milward, Sashka Dimitrievska, Paul Metcalfe, Emilie Louvet

date Time:2023-11-03

paper pdf:http://arxiv.org/pdf/2311.04925v1

摘要
制定药物疗效基准是临床试验设计和规划的关键步骤。面临的挑战是,大部分疗效终点数据都以自由文本形式存储在科学论文中,因此提取这些数据目前主要是一项人工任务。我们的目标是尽可能实现这项工作的自动化。在这项研究中,我们开发并优化了一个框架,利用机器学习方法从科学论文文本中提取疗效终点。我们的机器学习模型预测了与疗效终点相关的 25 个类别,在测试集上获得了 96.4% 的高 F1 分数(精确度和召回率的调和平均值),在两个案例研究中分别获得了 93.9% 和 93.7% 的高 F1 分数。这些方法通过了主题专家的评估,并显示出与主题专家的高度一致,为未来从自由文本中自动提取临床终点带来了巨大希望。目前,从文本数据中提取临床信息是一项费力的人工任务,不仅扩展性差,而且容易出现人为错误。展示自动提取疗效终点的能力为加快临床试验设计的步伐带来了巨大希望。

12.Low-Resource Named Entity Recognition: Can One-vs-All AUC Maximization Help?

标题:低资源命名实体识别:单个与全部 AUC 最大化是否有用?

author:Ngoc Dang Nguyen, Wei Tan, Lan Du, Wray Buntine, Richard Beare, Changyou Chen

publish:6 pages, 3 figures, ICDM 2023

date Time:2023-11-02

paper pdf:http://arxiv.org/pdf/2311.04918v1

摘要
命名实体识别(NER)是一项从文本中识别和分类命名实体(如个人或组织)的任务,传统上被视为多类分类问题。然而,这种方法往往忽略了标签分布不平衡的问题,特别是在低资源环境下,这在某些 NER 环境中很常见,如生物医学 NER(bioNER)。为了解决这些问题,我们提出了一种创新的方法,将多类问题重新表述为单类对全类(OVA)学习问题,并引入了基于接收者工作特征曲线下面积(AUC)的损失函数。为了提高基于 OVA 方法的效率,我们提出了两种训练策略:一种是将具有相似语言特征的标签分组,另一种是采用元学习。在不同的 NER 设置中,我们的方法的性能都超过了传统的 NER 学习,这证实了我们方法的优越性。

13.Calibrated Seq2seq Models for Efficient and Generalizable Ultra-fine Entity Typing

标题:用于高效和通用超精细实体分类的校准 Seq2seq 模型

author:Yanlin Feng, Adithya Pratapa, David R Mortensen

date Time:2023-11-01

paper pdf:http://arxiv.org/pdf/2311.00835v1

摘要
超精细实体分型通过预测文本中实体提及的精细语义类型,在信息提取中发挥着至关重要的作用。然而,由于输出空间中存在大量实体类型,这项任务面临着巨大挑战。目前最先进的方法基于标准多标签分类器或交叉编码器模型,存在泛化性能差或推理效率低的问题。在本文中,我们介绍了 CASENT,这是一种专为超精细实体分型设计的 seq2seq 模型,可通过校准置信度分数预测超精细类型。我们的模型将实体提词作为输入,并采用约束束搜索自回归生成多种类型。然后使用一种新颖的校准方法将与预测类型相关的原始序列概率转换为置信度分数。我们在包含 10k 多种类型的 UFET 数据集上进行了大量实验。就 F1 分数和校准误差而言,我们的方法优于之前的先进方法,同时推理速度提高了 50 多倍。此外,我们还在训练期间未见的五个专业领域实体类型数据集上评估了我们的模型在零镜头和少镜头设置下的泛化能力。值得注意的是,我们的模型在 "0-shot "设置中的表现优于参数多 10 倍的大型语言模型,而在对 50 个示例进行微调后,它在所有数据集上的表现都明显优于 ChatGPT。我们的代码、模型和演示可在 https://github.com/yanlinf/CASENT 上获取。

14.IBADR: an Iterative Bias-Aware Dataset Refinement Framework for Debiasing NLU models

标题:IBADR:用于消除 NLU 模型偏差的迭代偏差感知数据集完善框架

author:Xiaoyue Wang, Xin Liu, Lijie Wang, Yaoxiang Wang, Jinsong Su, Hua Wu

publish:EMNLP2023 main conference

date Time:2023-11-01

paper pdf:http://arxiv.org/pdf/2311.00292v1

摘要
作为常用的自然语言理解(NLU)模型除错方法,数据集细化方法严重依赖人工数据分析,因此可能无法涵盖所有潜在的偏差特征。在本文中,我们提出了迭代偏差感知数据集细化框架 IBADR,它可以在不预先定义偏差特征的情况下去除 NLU 模型的偏差。我们维护一个迭代扩展的样本池。具体来说,每次迭代时,我们首先训练一个浅层模型,量化样本池中样本的偏差程度。然后,我们将每个样本与代表其偏差程度的偏差指标配对,并使用这些扩展样本来训练样本生成器。这样,生成器就能有效地学习偏差指标与样本之间的对应关系。此外,我们还利用生成器通过输入特定的偏差指标来生成具有较少偏差特征的伪样本。最后,我们将生成的伪样本纳入样本池。在两个 NLU 任务上的实验结果和深入分析表明,IBADR 不仅大大优于现有的数据集提炼方法,实现了 SOTA,而且与以模型为中心的方法兼容。

15.Keyword-optimized Template Insertion for Clinical Information Extraction via Prompt-based Learning

标题:通过基于提示的学习在临床信息提取中插入关键词优化模板

author:Eugenia Alleva, Isotta Landi, Leslee J Shaw, Erwin Böttinger, Thomas J Fuchs, Ipek Ensari

date Time:2023-10-31

paper pdf:http://arxiv.org/pdf/2310.20089v1

摘要
临床笔记分类是一项常见的临床 NLP 任务。然而,注释数据集却很少。基于提示的学习是最近出现的一种有效方法,只需使用少量训练示例就能调整预训练模型以进行文本分类。提示设计的一个关键要素是模板(即提示文本)的定义。然而,对模板位置的影响还没有进行充分的研究。这一点在临床环境中似乎尤为重要,因为临床笔记中与任务相关的信息通常很少。在本研究中,我们开发了一种关键字优化模板插入法(KOTI),并展示了在零镜头和少镜头训练设置中,优化位置如何提高几项临床任务的性能。

16.Split-NER: Named Entity Recognition via Two Question-Answering-based Classifications

标题:Split-NER: 通过两种基于问答的分类进行命名实体识别

author:Jatin Arora, Youngja Park

date Time:2023-10-30

paper pdf:http://arxiv.org/pdf/2310.19942v1

摘要
在这项工作中,我们将 NER 问题分成两个逻辑子任务来解决:(1) 跨度检测,即简单地提取实体提及跨度,而不考虑实体类型;(2) 跨度分类,即根据实体类型对跨度进行分类。此外,我们还将这两个子任务表述为问题解答(QA)问题,并生成了两个更精简的模型,可分别针对每个子任务进行优化。四个跨领域数据集的实验证明,这种两步法既有效又省时。我们的系统 SplitNER 在 OntoNotes5.0、WNUT17 和一个网络安全数据集上的表现优于基线,在 BioNLP13CG 上的表现与基线相当。在所有情况下,与质量保证基线相比,它都显著减少了训练时间。我们系统的有效性源于对 BERT 模型进行了两次微调,分别用于跨度检测和分类。源代码见 https://github.com/c3sr/split-ner。

17.Joint Entity and Relation Extraction with Span Pruning and Hypergraph Neural Networks

标题:利用跨度剪枝和超图神经网络联合提取实体和关系

author:Zhaohui Yan, Songlin Yang, Wei Liu, Kewei Tu

publish:Accepted to Proceedings of EMNLP, 2023

date Time:2023-10-26

paper pdf:http://arxiv.org/pdf/2310.17238v1

摘要
实体和关系提取(ERE)是信息提取中的一项重要任务。最新的基于标记的流水线模型达到了最先进的性能,但仍存在错误传播问题。在这项工作中,我们提出了用于ERE的HyperGraph神经网络(KaTeX parse error: Undefined control sequence: \hgnn at position 1: \̲h̲g̲n̲n̲{}),它建立在PL-marker(一种基于标记的最新流水线模型)的基础上。为了减轻错误传播,我们使用了高召回剪枝机制,将实体识别和标注的负担从 NER 模块转移到模型的联合模块。为了进行高阶建模,我们构建了一个超图,其中的节点是实体(由跨度剪枝器提供)及其关系,而超桥则表示两个不同关系之间或一个关系与其相关的主体和客体实体之间的交互。然后,我们在构建的超图上应用消息传递,运行超图神经网络进行高阶推理。在三个广泛使用的ERE任务基准(acef{}、ace{}和scierc{})上进行的实验表明,与之前最先进的PL-marker相比,ERE任务有了显著的改进。

18.Improving a Named Entity Recognizer Trained on Noisy Data with a Few Clean Instances

标题:用少量干净实例改进在噪声数据上训练的命名实体识别器

author:Zhendong Chu, Ruiyi Zhang, Tong Yu, Rajiv Jain, Vlad I Morariu, Jiuxiang Gu, Ani Nenkova

publish:14 pages

date Time:2023-10-25

paper pdf:http://arxiv.org/pdf/2310.16790v1

摘要
为了达到最先进的性能,我们仍然需要在大规模、高质量的注释数据上训练 NER 模型,而这种资产的积累既费钱又费时。相比之下,现实世界中的应用通常会通过众包的非专业注释者和远距离监督的外部知识库来使用大量低质量的标注数据,以此作为一种具有成本效益的替代方法。然而,这些标注方法会产生噪声标签,进而导致性能明显下降。因此,我们建议在一小部分干净实例的指导下,对噪声 NER 数据进行去噪处理。除了主要的 NER 模型,我们还训练了一个判别器模型,并利用其输出重新校准样本权重。判别器能够通过不同的判别提示检测跨度错误和类别错误。在公共众包和远距离监督数据集上的结果表明,所提出的方法可以在较小的指导集上持续提高性能。

19.GenKIE: Robust Generative Multimodal Document Key Information Extraction

标题:GenKIE:鲁棒性生成式多模态文档关键信息提取

author:Panfeng Cao, Ye Wang, Qiang Zhang, Zaiqiao Meng

publish:Accepted by EMNLP 2023, Findings paper

date Time:2023-10-24

paper pdf:http://arxiv.org/pdf/2310.16131v1

摘要
从扫描文件中提取关键信息(KIE)因其在各个领域的应用而日益受到关注。尽管最近的一些关键信息提取方法取得了可喜的成果,但它们通常是基于判别模型建立的,缺乏处理光学字符识别(OCR)错误的能力,并且需要费力地进行标记级标签。在本文中,我们提出了一种名为 GenKIE 的新型生成端到端模型来解决 KIE 任务。GenKIE 是一种序列到序列的多模态生成模型,它利用多模态编码器嵌入视觉、布局和文本特征,并利用解码器生成所需的输出。利用精心设计的提示将标签语义纳入弱监督信号,并诱导生成关键信息。生成模型的一个显著优势是可以自动纠正 OCR 错误。此外,还不需要标记级粒度注释。在多个公共真实数据集上进行的广泛实验表明,GenKIE 能够有效地泛化不同类型的文档,并取得了最先进的结果。我们的实验还验证了该模型对 OCR 错误的鲁棒性,这使得 GenKIE 在现实世界中非常适用。

20.Instruct and Extract: Instruction Tuning for On-Demand Information Extraction

标题:指令和提取:按需信息提取的指令调整

author:Yizhu Jiao, Ming Zhong, Sha Li, Ruining Zhao, Siru Ouyang, Heng Ji, Jiawei Han

publish:EMNLP 2023

date Time:2023-10-24

paper pdf:http://arxiv.org/pdf/2310.16040v1

摘要
具有指令跟踪功能的大型语言模型为更广泛的用户群打开了大门。然而,在自然语言处理的经典任务–信息提取方面,大多数针对特定任务的系统无法很好地满足非专业用户的长尾特别提取用例。为了解决这个问题,我们提出了一种新颖的范式,称为按需信息提取,以满足真实世界用户的个性化需求。我们的任务旨在按照指令从相关文本中提取所需的内容,并以结构化的表格格式呈现出来。表头可以由用户指定,也可以由模型根据上下文推断。为了促进这一新兴领域的研究,我们提出了一个名为 InstructIE 的基准,其中包括自动生成的训练数据和人工标注的测试集。在 InstructIE 的基础上,我们进一步开发了按需信息提取器 ODIE。在我们的基准上进行的综合评估显示,ODIE 的性能大大优于现有的类似规模的开源模型。我们的代码和数据集发布在 https://github.com/yzjiao/On-Demand-IE 上。

21.MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in the Materials Science Domain

标题:MuLMS:用于材料科学领域信息提取的多层注释文本语料库

author:Timo Pierre Schrader, Matteo Finco, Stefan Grünewald, Felix Hildebrand, Annemarie Friedrich

publish:17 pages, 2 figures, 28 tables, to be published in “Proceedings of
the second Workshop on Information Extraction from Scientific Publications”

date Time:2023-10-24

paper pdf:http://arxiv.org/pdf/2310.15569v1

摘要
跟踪某一研究领域所有相关的最新出版物和实验结果是一项具有挑战性的任务。先前的工作已经证明了信息提取模型在各个科学领域的有效性。最近,针对尚未得到充分研究的材料科学领域发布了几个数据集。不过,这些数据集主要集中在解析合成程序等子问题或固体氧化物燃料电池等子领域。在这篇资源论文中,我们介绍了由 50 篇开放存取文章组成的新数据集 MuLMS,涵盖了材料科学的七个子领域。该语料库由领域专家注释,包含从命名实体到关系再到框架结构的多个层次。我们为所有任务提供了有竞争力的神经模型,并证明了利用现有相关资源进行多任务训练的好处。

22.Efficient Data Learning for Open Information Extraction with Pre-trained Language Models

标题:利用预训练语言模型进行高效数据学习以提取开放信息

author:Zhiyuan Fan, Shizhu He

date Time:2023-10-23

paper pdf:http://arxiv.org/pdf/2310.15021v2

摘要
开放式信息提取(OpenIE)是自然语言处理中一项基本而又具有挑战性的任务,它涉及从给定句子中提取所有三元组(主语、谓语、宾语)。基于标注的方法有其优点,而基于生成的技术则具有独特的优势,例如可以生成原始句子中不存在的标记。然而,这些基于生成的方法往往需要大量的训练数据来学习 OpenIE 的任务形式,并且需要大量的训练时间来克服由于阶次惩罚而导致的模型收敛速度缓慢的问题。在本文中,我们引入了一个新颖的框架 OK-IE,它巧妙地将 OpenIE 的任务形式转化为 T5 模型的预训练任务形式,从而减少了对大量训练数据的需求。此外,我们还引入了创新的主控概念来控制模型输出的顺序,有效消除了顺序惩罚对模型收敛性的影响,大大缩短了训练时间。实验结果表明,与之前的 SOTA 方法相比,OK-IE 只需要 1/1100 的训练数据(900 个实例)和 1/120 的训练时间(3 分钟)就能获得相当的结果。

23.Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning

标题:通过视觉不对称一致性学习在文档图像中进行视觉增强型语义实体识别

author:Hao Wang, Xiahua Chen, Rui Wang, Chenhui Chu

publish:14 pages, 6 figures, Accepted by EMNLP2023

date Time:2023-10-23

paper pdf:http://arxiv.org/pdf/2310.14785v1

摘要
从视觉丰富的类表单文档(VFD)中提取属于预定义类别的有意义实体是一项具有挑战性的任务。字体、背景、颜色、边界框位置和大小等视觉和布局特征为识别同一类型的实体提供了重要线索。然而,现有模型通常使用较弱的跨模态监督信号来训练视觉编码器,导致捕捉这些非文本特征的能力有限,性能也不尽如人意。在本文中,我们提出了一种新颖的textbf{V}isually-\textbf{A}symmetric co\textbf{N}sisten\textbf{C}y \textbf{L}earning(\textsc{Vancl})方法,该方法通过加入颜色先验来增强模型捕捉细粒度视觉和布局特征的能力,从而解决了上述局限性。在基准数据集上的实验结果表明,我们的方法大大优于强 LayoutLM 系列基线,证明了我们方法的有效性。此外,我们还研究了不同颜色方案对我们方法的影响,为优化模型性能提供了启示。我们相信,我们的工作将对未来的多模态信息提取研究有所启发。

24.CoF-CoT: Enhancing Large Language Models with Coarse-to-Fine Chain-of-Thought Prompting for Multi-domain NLU Tasks

标题:CoF-CoT:利用从粗到细的思维链提示增强大型语言模型,以完成多领域 NLU 任务

author:Hoang H. Nguyen, Ye Liu, Chenwei Zhang, Tao Zhang, Philip S. Yu

publish:Accepted at EMNLP 2023 (Main Conference)

date Time:2023-10-23

paper pdf:http://arxiv.org/pdf/2310.14623v1

摘要
虽然思维链提示在推理任务中很流行,但其在自然语言理解(NLU)中的大型语言模型(LLM)中的应用还未得到充分探索。受 LLM 多步骤推理的启发,我们提出了从粗到细的思维链(CoF-CoT)方法,该方法将 NLU 任务分解为多个推理步骤,LLM 可以在这些步骤中学会获取和利用基本概念,以解决不同粒度的任务。此外,我们还建议利用基于语义的抽象意义表征(AMR)结构化知识作为中间步骤,以捕捉语篇的细微差别和不同结构,并理解其不同粒度之间的联系。事实证明,我们提出的方法能有效地帮助 LLMs 适应零镜头和少镜头多领域设置下的多粒度 NLU 任务。

25.Explaining Interactions Between Text Spans

标题:解释文本跨度之间的相互作用

author:Sagnik Ray Choudhury, Pepa Atanasova, Isabelle Augenstein

publish:code: https://github.com/copenlu/spanex , dataset:
https://huggingface.co/datasets/copenlu/spanex. Accepted EMNLP 2023

date Time:2023-10-20

paper pdf:http://arxiv.org/pdf/2310.13506v1

摘要
对输入内容不同部分的词块进行跨度推理对于事实检查(FC)、机器阅读理解(MRC)或自然语言推理(NLI)等自然语言理解(NLU)任务至关重要。然而,现有的基于高亮度的解释主要侧重于识别单个重要的标记,或仅识别相邻标记或标记元组之间的交互。最值得注意的是,在此类任务中,缺乏捕捉人类决策过程与知情决策所需交互的注释。为了弥补这一不足,我们引入了 SpanEx,这是一个针对两个 NLU 任务的人类跨度交互解释的多注释者数据集:NLI 和 FC。然后,我们研究了多个微调大型语言模型的决策过程,这些模型在输入的不同部分采用了跨度之间的连接,并将它们与人类推理过程进行了比较。最后,我们提出了一种基于社群检测的新型无监督方法,用于从模型的内部结构中提取此类交互解释。

26.Reading Order Matters: Information Extraction from Visually-rich Documents by Token Path Prediction

标题:阅读顺序很重要:通过标记路径预测从视觉丰富的文档中提取信息

author:Chong Zhang, Ya Guo, Yi Tu, Huan Chen, Jinyang Tang, Huijia Zhu, Qi Zhang, Tao Gui

publish:Accepted as a long paper in the main conference of EMNLP 2023

date Time:2023-10-17

paper pdf:http://arxiv.org/pdf/2310.11016v1

摘要
多模态预训练模型的最新进展大大提高了从视觉丰富的文档(VrDs)中提取信息的能力,其中命名实体识别(NER)被视为一项序列标记任务,即按照典型的 NLP 设置,预测标记词的 BIO 实体标记。然而,BIO 标记方案依赖于模型输入的正确顺序,而在现实世界中,由 OCR 系统识别和排列文本的扫描 VrD 的 NER 无法保证这一点。这种阅读顺序问题阻碍了 BIO 标记方案对实体的准确标记,使得序列标记方法无法预测正确的命名实体。为了解决阅读顺序问题,我们引入了令牌路径预测(TPP),这是一种简单的预测头,用于预测文档中作为令牌序列的实体提及。作为标记分类的替代方案,TPP 将文档布局建模为一个完整的标记有向图,并将图中的标记路径预测为实体。为了更好地评估 VrD-NER 系统,我们还提出了两个经过修订的扫描文档 NER 基准数据集,这些数据集能够反映真实世界的场景。实验结果证明了我们方法的有效性,并表明它有潜力成为各种文档信息提取任务的通用解决方案。

27.Factored Verification: Detecting and Reducing Hallucination in Summaries of Academic Papers

标题:事实验证:检测和减少学术论文摘要中的幻觉

author:Charlie George, Andreas Stuhlmüller

publish:Second Workshop on Information Extraction from Scientific
Publications (WIESP) at IJCNLP-AACL 2023

date Time:2023-10-16

paper pdf:http://arxiv.org/pdf/2310.10627v1

摘要
幻觉甚至困扰着前沿法学硕士–但它对学术论文摘要的影响到底有多大?我们对 Factored Verification 进行了评估,这是一种用于检测抽象摘要中幻觉的简单自动方法。该方法在 HaluEval 基准的摘要任务中创造了幻觉检测的新 SotA,准确率达到 76.2%。然后,我们用这种方法估算了语言模型在总结多篇学术论文时出现幻觉的频率,结果发现在 ChatGPT (16k) 总结中平均出现 0.62 次幻觉,在 GPT-4 中为 0.84 次,在 Claude 2 中为 1.55 次。我们要求模型使用 “因式批判”(Factored Critiques)进行自我修正,结果发现这将幻觉的数量降低到:ChatGPT 为 0.49,GPT-4 为 0.46,Claude 2 为 0.95。我们发现的幻觉往往很微妙,因此我们建议在使用模型综合学术论文时要谨慎。

28.Mastering the Task of Open Information Extraction with Large Language Models and Consistent Reasoning Environment

标题:利用大型语言模型和一致推理环境掌握开放式信息提取任务

author:Ji Qi, Kaixuan Ji, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Lei Hou, Juanzi Li, Bin Xu

date Time:2023-10-16

paper pdf:http://arxiv.org/pdf/2310.10590v1

摘要
开放式信息提取(OIE)旨在从自然文本中提取客观的结构化知识,它吸引了越来越多的人关注利用人类经验建立专用模型。由于大型语言模型(LLMs)已经展现出卓越的上下文学习能力,人们不禁要问,这种范式能否有效地解决开放信息提取任务?在本文中,我们探讨了如何通过为 LLMs 构建合适的推理环境来解决 OIE 问题。具体来说,我们首先提出了一种方法来有效估计 LLM 与测试样本之间的句法分布差异,以此作为相关证据来准备积极的示范。在此基础上,我们引入了一种简单而有效的机制,以建立 LLM 在特定任务上的推理环境。在标准 CaRB 基准上的实验结果表明,我们的 6 6 6-shot 方法优于最先进的监督方法,获得了 55.3 55.3 55.3 F 1 F_1 F1 的分数。在 TACRED 和 ACE05 上的进一步实验表明,我们的方法可以自然地推广到其他信息提取任务中,从而分别提高了 5.7 美元和 6.8 美元的 F_1 美元分数。

29.Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset

标题:利用合成数据集学习为命名实体识别进行上下文排序

author:Arthur Amalvy, Vincent Labatut, Richard Dufour

date Time:2023-10-16

paper pdf:http://arxiv.org/pdf/2310.10118v3

摘要
虽然最近基于转换器的预训练模型可以非常准确地执行命名实体识别(NER),但在应用于长文档(如整本小说)时,其有限的范围仍然是一个问题。为了缓解这一问题,一种解决方案是在文档级别检索相关上下文。遗憾的是,由于缺乏对这一任务的监督,我们只能采用无监督方法。相反,我们建议使用 Alpaca(一种经过指令调整的大型语言模型(LLM))生成一个合成上下文检索训练数据集。利用该数据集,我们训练了一种基于 BERT 模型的神经上下文检索器,它能够为 NER 找到相关上下文。在一个由 40 本图书的第一章组成的英语文学数据集上,我们的方法在 NER 任务中的表现优于几种检索基线。

30.Empirical Study of Zero-Shot NER with ChatGPT

标题:使用 ChatGPT 进行零镜头 NER 的实证研究

author:Tingyu Xie, Qi Li, Jian Zhang, Yan Zhang, Zuozhu Liu, Hongwei Wang

publish:Accepted to EMNLP 2023 (Main Conference)

date Time:2023-10-16

paper pdf:http://arxiv.org/pdf/2310.10035v1

摘要
大型语言模型(LLM)在各种自然语言处理任务中表现出强大的能力。这项工作的重点是探索 LLM 在零点信息提取方面的性能,重点是 ChatGPT 和命名实体识别(NER)任务。受 LLM 在符号推理和算术推理方面卓越推理能力的启发,我们将流行的推理方法应用于 NER,并提出了为 NER 量身定制的推理策略。首先,我们探索了一种分解式问题解答范式,通过标签将 NER 任务分解为更简单的子问题。其次,我们提出了语法增强方法,通过两种方式激发模型的中间思维:语法提示(鼓励模型自己分析语法结构)和工具增强(为模型提供由解析工具生成的语法信息)。此外,我们还提出了一种两阶段多数投票策略,即首先投票选出最一致的提及,然后再投票选出最一致的类型,从而将自一致性应用到 NER 中。在包括中文和英文数据集在内的七个基准测试中,所提出的方法在特定领域和通用领域场景下都取得了显著的零次 NER 改进。此外,我们还对错误类型进行了全面分析,并提出了优化方向。我们还验证了所提出的方法在少拍设置和其他 LLM 上的有效性。

  • 12
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值