EMNLP2023 NER方向论文整理

目录

1. 2INER: Instructive and In-Context Learning on Few-Shot Named Entity Recognition

2. Structure and Label Constrained Data Augmentation for Cross-domain Few-shot NER

3. Alignment Precedes Fusion: Open-Vocabulary Named Entity Recognition as Context-Type Semantic Matching

4. ScdNER: Span-Based Consistency-Aware Document-Level Named Entity Recognition

5. Towards Building More Robust NER datasets: An Empirical Study on NER Dataset Bias from a Dataset Difficulty View

6. Continual Named Entity Recognition without Catastrophic Forgetting

7. Adversarial Robustness for Large Language NER models using Disentanglement and Word Attributions

8. ESPVR: Entity Spans Position Visual Regions for Multimodal Named Entity Recognition

9. CleanCoNLL: A Nearly Noise-Free Named Entity Recognition Dataset

10. NERetrieve: Dataset for Next Generation Named Entity Recognition and Retrieval

11. Prompting ChatGPT in MNER: Enhanced Multimodal Named Entity Recognition with Auxiliary Refined Knowledge

12. Taxonomy Expansion for Named Entity Recognition

13. MProto: Multi-Prototype Network with Denoised Optimal Transport for Distantly Supervised Named Entity Recognition

14. Empirical Study of Zero-Shot NER with ChatGPT

15. Less than One-shot: Named Entity Recognition via Extremely Weak Supervision

16. A Boundary Offset Prediction Network for Named Entity Recognition

17. Enhancing Low-resource Fine-grained Named Entity Recognition by Leveraging Coarse-grained Datasets

18. EXPLAIN, EDIT, GENERATE: Rationale-Sensitive Counterfactual Data Augmentation for Multi-hop Fact Verification

19. In-context Learning for Few-shot Multimodal Named Entity Recognition

20. Addressing NER Annotation Noises with Uncertainty-Guided Tree-Structured CRFs

21. A Query-Parallel Machine Reading Comprehension Framework for Low-resource NER

22. Causal Intervention-based Few-Shot Named Entity Recognition

23. MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition

24. NERvous About My Health: Constructing a Bengali Medical Named Entity Recognition Dataset

25. Type-Aware Decomposed Framework for Few-Shot Named Entity Recognition

26. GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets

27. Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset

28. Re-weighting Tokens: A Simple and Effective Active Learning Strategy for Named Entity Recognition

29. SmartSpanNER: Making SpanNER Robust in Low Resource Scenarios

30. Toward a Critical Toponymy Framework for Named Entity Recognition: A Case Study of Airbnb in New York City

31. Biomedical Named Entity Recognition via Dictionary-based Synonym Generalization

32. SKD-NER: Continual Named Entity Recognition via Span-based Knowledge Distillation with Reinforcement Learning

33. CASSI: Contextual and Semantic Structure-based Interpolation Augmentation for Low-Resource NER


1. 2INER: Instructive and In-Context Learning on Few-Shot Named Entity Recognition

链接:https://aclanthology.org/2023.findings-emnlp.259.pdf

摘要:该论文提出了一种名为2INER的文本到文本框架,用于少样本命名实体识别(NER)任务。该方法采用InstructionNER(Wang等人,2022)的指令微调,使模型能够有效理解和处理任务特定的指令,包括主要和辅助任务。作者还引入了一种新的辅助任务,称为类型提取,以增强模型对句子整体语义上下文中实体类型的理解。为了促进上下文学习,我们将示例连接到输入中,使模型能够从附加上下文信息中学习。在四个数据集上的实验结果表明,我们的方法优于现有的少样本NER方法,并保持与最先进的标准NER算法的竞争力。

2. Structure and Label Constrained Data Augmentation for Cross-domain Few-shot NER

链接:https://aclanthology.org/2023.findings-emnlp.37.pdf

摘要:该论文提出了一种名为SLC-DA的新方法,用于跨领域少样本命名实体识别(NER)。该方法从两个新的角度分析了领域差距,即实体注释和实体结构,并分别利用单词到标签和单词到单词关系来对它们进行建模。此外,作者在数据增强过程中提出了一种名为结构和标签约束数据增强(SLC-DA)的新方法,该方法新颖地设计了一个标签约束的预训练任务和一个结构约束的优化目标,以生成领域特定的增强数据,帮助NER模型顺利地从源域过渡到目标域。作者在几个标准数据集上评估了他们的方法,并取得了最先进或具有竞争力的结果,证明了他们的方法在跨领域少样本NER中的有效性。

3. Alignment Precedes Fusion: Open-Vocabulary Named Entity Recognition as Context-Type Semantic Matching

链接:https://aclanthology.org/2023.findings-emnlp.974.pdf

摘要:尽管开发命名实体识别模型取得了重大进展,但在真实世界场景中,对新兴类型的扩展仍然充满挑战。为了处理新兴类型,已经探索了连续学习和零样本学习方法,以减少人类监督,但这些方法还没有像监督方法那样成功地被采纳。与此同时,人类拥有比这些方法更大的词汇量,并能够通过自然监督轻松地学习实体与概念之间的对应关系。在本文中,我们考虑了一个更现实和具有挑战性的设置,称为开放词汇命名实体识别(OVNER),以模仿人类的能力。OVNER的目标是通过文本名称或描述来识别新类型的实体。具体来说,我们将OVNER表述为一项语义匹配任务,并提出了一种名为Context-Type SemAntiC Alignment and FusiOn(CACAO)的新颖且可扩展的两阶段方法。在预训练阶段,我们采用双编码器进行上下文-类型语义对齐,并在80M上下文-类型对上预训练双编码器,这些对可以通过自然监督轻松获取。在微调阶段,我们使用交叉编码器进行上下文-类型语义融合,并在基本类型上微调交叉编码器。实验结果表明,我们的方法在三个具有挑战性的OVNER基准测试中,新类型的F1得分比之前最先进的方法高出9.7%、9.5%和1.8%。此外,CACAO还展示了其在跨领域NER中的灵活转移能力。

4. ScdNER: Span-Based Consistency-Aware Document-Level Named Entity Recognition

链接:https://aclanthology.org/2023.emnlp-main.970.pdf

摘要:文档级NER方法通过基于词的键值内存使用全局信息进行准确和一致的预测。然而,当相同的词出现在不同的词序列中并且具有不同的标签时,这种词级别的全球信息可能会引入噪音。本文提出了一种两阶段文档级NER模型ScdNER,通过自适应跨度级全局特征融合进行更准确和一致的预测。在第一阶段,ScdNER训练一个二元分类器,预测一个词序列是否为实体的概率。通过基于跨度的键值内存,这些概率被进一步用来获取实体的全局特征,减少非实体序列的影响。第二阶段使用门控机制预测实体类型,以平衡其本地和全局信息,从而实现自适应全局特征融合。在科学、生物医学和普通领域的基准数据集上的实验显示了所提出方法的有效性。

5. Towards Building More Robust NER datasets: An Empirical Study on NER Dataset Bias from a Dataset Difficulty View

链接:https://aclanthology.org/2023.emnlp-main.281.pdf

摘要:最近,许多研究表明了命名实体识别(NER)系统的鲁棒性问题:NER模型通常依赖于表面实体模式进行预测,而没有考虑上下文中的证据。因此,即使是最先进的NER模型也难以泛化到领域外场景,当引入领域外(OOD)实体模式时。先前的研究将鲁棒性问题归因于NER数据集偏差的存在,其中较简单和规律的实体模式导致了捷径学习。在这项工作中,我们通过从数据集难度的角度全面调查NER数据集偏差,为这个问题带来了新的见解。我们量化了现有数据集中的实体-上下文难度分布,并解释了它们与模型鲁棒性的关系。基于我们的发现,我们探索了通过改变实体-上下文分布来消除NER数据集偏差的三种潜在方法,并通过大量实验验证了其可行性。最后,我们展示了去偏数据集可以转移到不同的模型,甚至可以提升现有基于模型的鲁棒性改进方法,表明构建更鲁棒的数据集是构建更鲁棒NER系统的基础。

6. Continual Named Entity Recognition without Catastrophic Forgetting

链接:https://aclanthology.org/2023.emnlp-main.509.pdf

摘要:持续命名实体识别(CNER)是一个新兴领域,它涉及通过顺序地合并新实体类型来更新现有模型。然而,持续学习方法通常严重受到灾难性遗忘的影响。在CNER中,这个问题因为将之前步骤中的旧实体类型合并到每个步骤的非实体类型中而加剧,导致所谓的非实体类型的语义转移问题。在本文中,我们引入了一种汇总特征蒸馏损失,巧妙地平衡了保留旧实体类型知识和获取新实体类型之间的折衷,从而更有效地减轻灾难性遗忘问题。此外,我们开发了一种基于信心的非实体类型伪标签方法,即使用旧模型预测实体类型来处理非实体类型的语义转移。在伪标签过程之后,我们提出了一种自适应重新加权的类型平衡学习策略来处理类型分布偏差问题。我们在三个不同数据集上的十个CNER设置中进行了全面实验。结果表明,我们的方法显著优于先前的最先进方法,在微观和宏观F1得分中分别提高了平均6.3%和8.0%。

7. Adversarial Robustness for Large Language NER models using Disentanglement and Word Attributions

链接:https://aclanthology.org/2023.findings-emnlp.830.pdf

摘要:大型语言模型(LLM)已广泛用于多种应用,如问答、文本分类和聚类。尽管在上述任务中的初步结果看起来很有希望,但最近的工作深入研究了LLM在复杂命名实体识别(NER)任务中的表现不佳,与经过微调的预训练语言模型(PLM)相比。为了促进LLM的更广泛应用,我们的论文调查了这些LLM NER模型及其指令微调变体对抗性攻击的鲁棒性。特别是,我们提出了一种新颖的攻击,它依赖于解耦和词归因技术,前者有助于学习分别捕获实体和非实体影响的嵌入,后者有助于识别两个组成部分中的重要词汇。这与大多数技术形成鲜明对比,后者主要利用非实体词进行扰动,限制了被探索以合成有效对抗性示例的空间。基于我们方法的对抗性训练结果使原始LLM NER模型的F1得分在CoNLL-2003和Ontonotes 5.0数据集上分别提高了8%和18%。

8. ESPVR: Entity Spans Position Visual Regions for Multimodal Named Entity Recognition

链接:https://aclanthology.org/2023.findings-emnlp.522/

摘要:多模态命名实体识别(MNER)使用视觉信息来提高仅文本命名实体识别(NER)的性能。然而,现有方法用于获取局部视觉信息存在一定局限性:(1)使用基于注意力的方法从通过卷积架构(例如ResNet)获得的视觉区域中提取与文本相关的视觉区域时,注意力被整个图像分散,而不是完全集中在与文本最相关的视觉区域上;(2)使用基于目标检测的方法(例如Mask R-CNN)来检测与文本相关的视觉目标区域时,目标检测的识别类别范围有限。此外,通过目标检测获得的视觉区域可能与文本中的实体不对应。总之,这些方法的目标不是提取文本中实体最相关的视觉区域。这些方法获得的视觉区域可能对文本中的实体来说是冗余的或不足的。在本文中,我们提出了一种实体跨度位置视觉区域(ESPVR)模块,以获取与文本中实体最相关的视觉区域。实验表明,我们提出的方法在Twitter-2017上实现了最先进的SOTA,在Twitter-2015上也取得了有竞争力的结果。

9. CleanCoNLL: A Nearly Noise-Free Named Entity Recognition Dataset

链接:https://aclanthology.org/2023.emnlp-main.533/

摘要:CoNLL-03语料库可能是用于命名实体识别(NER)最知名和最常用的基准数据集。然而,先前的研究发现数据中存在大量的注释错误、不完整性和不一致性。这对于客观比较NER方法和分析它们的错误带来了挑战,因为当前的最先进模型在CoNLL-03中达到的F1分数可与估计的噪声水平相媲美甚至超过。为了解决这个问题,我们提出了一项全面的重新标注工作,通过自动一致性检查帮助纠正英文CoNLL-03中7.0%的所有标签。我们的工作增加了实体链接注释层,以更好地解释NER标签并作为注释质量的额外保障。我们的实验评估发现,不仅最先进的方法在我们的数据上达到显著更高的F1分数(97.1%),而且由于注释噪声导致的错误计数中正确预测的比例从47%下降到6%。这表明我们的资源非常适合分析最先进模型所犯的剩余错误,并且即使在高资源、粗粒度的NER上,理论上界尚未达到。为了促进这种分析,我们将CleanCoNLL公开提供给研究社区。

10. NERetrieve: Dataset for Next Generation Named Entity Recognition and Retrieval

链接:https://aclanthology.org/2023.findings-emnlp.218/

摘要:在许多信息检索场景中,识别文本中的实体是一个核心需求,而命名实体识别(NER)可以说是广泛采用的NLP任务和相应NLP技术的最成功示例之一。最近在大型语言模型(LLM)方面的进展似乎也为NER任务提供了有效的解决方案,这些任务传统上是由专用模型处理的,通常与专用模型的能力相匹配或超越。那么,我们是否应该将NER视为一个已解决的问题?我们持相反观点:LLM提供的能力不是NER研究的终点,而是一个激动人心的开始。它们允许将NER提升到下一个层次,解决越来越有用、越来越具有挑战性的变体。我们提出了三种NER任务的变体,并提供了一个支持它们的数据集。第一种是朝着更细粒度和交叉性的实体类型迈进。第二种是基于实体类型标签进行零样本识别和提取这些细粒度类型的迈进。第三种,也是最具挑战性的,是从识别设置过渡到一个新的检索设置,其中查询是零样本实体类型,预期结果是来自大型预索引语料库的所有包含这些类型实体的句子及其对应跨度。我们展示了所有这些都远未解决。我们提供了一个包含500个实体类型的400万段落的大型银标注语料库,以促进朝着这三个目标的研究。

11. Prompting ChatGPT in MNER: Enhanced Multimodal Named Entity Recognition with Auxiliary Refined Knowledge

链接:https://aclanthology.org/2023.findings-emnlp.184/

摘要:社交媒体上的多模态命名实体识别(MNER)旨在通过整合基于图像的线索来增强文本实体预测。现有研究主要关注最大化利用相关图像信息或整合来自显式知识库的外部知识。然而,这些方法要么忽视了为模型提供外部知识的必要性,要么遇到检索到的知识高度冗余的问题。在本文中,我们提出了PGIM——一个旨在利用ChatGPT作为隐式知识库并使其启发式地生成辅助知识以进行更有效的实体预测的两阶段框架。具体来说,PGIM包含一个多模态相似示例意识模块,该模块从少量预定义的人工样本中选择合适的示例。然后,这些示例被整合到为MNER量身定制的格式化提示模板中,并指导ChatGPT生成辅助精炼知识。最后,获得的知识与原始文本结合,并输入到下游模型中进行进一步处理。广泛的实验表明,PGIM在两个经典的MNER数据集上优于最先进的方法,并展示出更强的鲁棒性和泛化能力。

12. Taxonomy Expansion for Named Entity Recognition

链接:https://aclanthology.org/2023.emnlp-main.426/

摘要:训练命名实体识别(NER)模型通常涉及确定实体类型的分类。然而,需求在不断演变,我们可能需要NER模型识别额外的实体类型。一个简单的方法是用现有和额外的实体类型重新注释整个数据集,然后在重新注释的数据集上训练模型。然而,这是一个极其繁琐的任务。为了解决这个问题,我们提出了一种名为部分标签模型(PLM)的新方法,它仅使用部分注释的数据集。我们在6个不同的数据集上进行实验,并显示PLM在大多数其他方法(0.5 - 2.5 F1)中的性能始终更好,包括在之前工作中未考虑的用于分类扩展的新设置中。在仅有少量额外实体类型数据的设置中,PLM与所有其他方法之间的差距尤其大(高达11 F1),从而表明了分类扩展的更具成本效益的方法。

13. MProto: Multi-Prototype Network with Denoised Optimal Transport for Distantly Supervised Named Entity Recognition

链接:https://aclanthology.org/2023.emnlp-main.145/

摘要:远程监督命名实体识别(DS-NER)旨在仅使用知识库或词表和未标注语料来定位实体提及并对其类型进行分类。然而,远程注释是嘈杂的,降低了NER模型的性能。在本文中,我们提出了一种名为MProto的抗噪声原型网络,用于DS-NER任务。与以前基于原型的NER方法不同,MProto用多个原型来表示每种实体类型,以表征实体表示中的类内变化。为了优化分类器,每个标记应该被分配一个适当的真实原型,我们将这种标记-原型分配视为最优运输(OT)问题。此外,为了减轻不完整标注带来的噪声,我们提出了一种新的去噪最优运输(DOT)算法。具体来说,我们利用Other类标记和所有原型之间的分配结果来区分未标注的实体标记和真正的负面。在几个DS-NER基准测试上的实验表明,我们的MProto实现了最先进的性能。源代码现已在Github上可用。

14. Empirical Study of Zero-Shot NER with ChatGPT

链接:https://aclanthology.org/2023.emnlp-main.493/

摘要:大型语言模型(LLM)在各种自然语言处理任务中展现出强大的能力。本项工作聚焦于探索LLM在零样本信息提取上的性能,特别关注ChatGPT以及命名实体识别(NER)任务。受到LLM在符号和算术推理方面显著推理能力的启发,我们将流行的推理方法适应于NER,并提出了专门为NER定制的推理策略。首先,我们通过按标签将NER任务分解成更简单的子问题来探索分解的问答范式。其次,我们提出了句法增强以促进模型的中间思考,包括两种方式:句法提示,鼓励模型自己分析句法结构;以及工具增强,为模型提供由解析工具生成的句法信息。此外,我们通过提出一种两阶段的多数投票策略,将自洽性适应于NER,该策略首先对最一致的提及进行投票,然后是最一致的类型。所提出的方法在包括中文和英文数据集在内的七个基准测试中,以及在特定领域和通用领域场景中,都实现了零样本NER的显著提高。此外,我们提供了对错误类型的全面分析,并就优化方向提出建议。我们还验证了所提方法在少样本设置和其他LLM上的有效性。

15. Less than One-shot: Named Entity Recognition via Extremely Weak Supervision

链接:https://aclanthology.org/2023.findings-emnlp.908/

摘要:我们研究了在极度弱监督(XWS)设置下的命名实体识别(NER)问题,其中每种类型的实体仅在无上下文的方式下给出一个示例。尽管人们可以看到,从监督数量上讲,XWS比一次性学习要轻,但我们提出了一种新颖的方法X-NER,可以胜过最先进的一次性NER方法。我们首先从未标注的训练语料库中挖掘与示例实体相似的实体跨度。我们发现,与利用语言模型的实体跨度表示相比,比较实体示例替换跨度前后的上下文分布更有效。然后,我们利用排名靠前的跨度作为伪标签来训练NER标记器。在4个NER数据集上的广泛实验和分析显示了X-NER的优越的端到端NER性能,显著胜过最先进的少样本方法、一次性监督和ChatGPT注释。最后,我们的X-NER具有几个显著的特性,例如继承了底层语言模型的跨语言能力。

16. A Boundary Offset Prediction Network for Named Entity Recognition

链接:https://aclanthology.org/2023.findings-emnlp.989/

摘要:命名实体识别(NER)是自然语言处理中的基础任务,旨在识别和分类文本中的命名实体。然而,用于NER的基于跨度的方法通常将实体类型分配给文本跨度,导致样本空间不平衡并忽略了非实体跨度和实体跨度之间的联系。为了解决这些问题,我们提出了一种新颖的NER方法,名为边界偏移预测网络(BOPN),它预测候选跨度与其最近实体跨度之间的边界偏移。通过利用边界偏移的引导语义,BOPN建立了非实体跨度和实体跨度之间的联系,使非实体跨度能够作为实体检测的额外正样本。此外,我们的方法结合实体类型和跨度表示来生成类型感知的边界偏移,而不是将实体类型用作检测目标。我们在八个广泛使用的NER数据集上进行实验,结果表明我们提出的BOPN超过了以前的最先进方法。

17. Enhancing Low-resource Fine-grained Named Entity Recognition by Leveraging Coarse-grained Datasets

链接:https://aclanthology.org/2023.emnlp-main.197/

摘要:命名实体识别(NER)经常遭受标注数据不足的问题,特别是在细粒度NER场景中。虽然可以应用K次学习技术,但当注释数量超过几十个标签时,它们的性能往往会饱和。为了克服这个问题,我们利用提供大量注释的现有粗粒度数据集。解决这个问题的一个直接方法是预微调,它使用粗粒度数据进行表示学习。然而,它不能直接利用细粒度和粗粒度实体之间的关系,尽管细粒度实体类型可能是粗粒度实体类型的子类别。我们提出了一种带有细粒度到粗粒度(F2C)映射矩阵的细粒度NER模型,以明确利用层次结构。此外,我们提出了一种不一致性过滤方法,以消除与细粒度实体类型不一致的粗粒度实体,避免性能下降。我们的实验结果表明,我们的方法在处理少量细粒度注释时超越了K次学习和监督学习方法。

18. EXPLAIN, EDIT, GENERATE: Rationale-Sensitive Counterfactual Data Augmentation for Multi-hop Fact Verification

链接:https://aclanthology.org/2023.emnlp-main.826/

摘要:近年来,自动多跳事实验证任务引起了显著关注。尽管取得了令人印象深刻的成果,但这些精心设计的模型在领域外数据上的表现不佳。一种可能的解决方案是通过使用最小改变原始数据的因果特征来生成反事实数据,以扩充训练数据。然而,当前的反事实数据增强技术由于无法保留多个相关文本中的复杂逻辑关系而无法处理多跳事实验证。在本文中,我们通过开发一种对论证敏感的方法来生成在保留逻辑关系的同时语言多样性和标签翻转的反事实数据,从而克服了这一限制。具体来说,多样且流畅的反事实数据是通过一个解释-编辑-生成架构产生的。此外,我们提出了检查和过滤模块,以规范化具有逻辑关系和翻转标签的反事实数据。实验结果表明,所提出的方法优于最先进的基准,并能在不破坏它们逻辑关系的情况下生成语言多样性的反事实数据。

19. In-context Learning for Few-shot Multimodal Named Entity Recognition

链接:https://aclanthology.org/2023.findings-emnlp.196/

摘要:部分得益于某些实体类别丰富的注释资源,现有研究在多模态命名实体识别(MNER)中取得了卓越的表现。然而,在现实世界场景中,预先列举所有实体类别是不可行的。因此,在本文中,我们构建了一个新的少样本多模态命名实体识别(FewMNER)任务,旨在仅使用少量标注示例有效地定位和识别文本-图像对中的命名实体。进一步地,我们探索了上下文学习(ICL)的优点,并提出了一个处理FewMNER的新颖框架,考虑到三点:即,转换视觉模态,选择有用的示例,以及设计有效的任务演示。具体来说,我们首先使用图像字幕模型将图像转换为文本描述,使大型语言模型能够从视觉模态吸收信息。然后,我们使用文本和图像模态的相似性排名之和的排名来选择k个最近的示例,形成演示上下文。最后,我们利用MNER定义和每个实体类别的含义作为有效指导。广泛的实验结果表明,我们的框架在几种少样本设置下优于基准。

20. Addressing NER Annotation Noises with Uncertainty-Guided Tree-Structured CRFs

链接:https://aclanthology.org/2023.emnlp-main.872/

摘要:现实世界的命名实体识别(NER)数据集因其嘈杂的性质而臭名昭著,这是由于注释错误、不一致性和主观解释造成的。这种噪声对传统的监督学习方法构成了巨大的挑战。在本文中,我们提出了一种新的统一方法来解决NER的注释噪声问题。我们的方法将NER视为构成树解析问题,使用具有不确定性评估的树状条件随机场(CRFs)进行整合。通过在四个现实世界数据集上进行的广泛实验,我们证明了我们的模型在处理部分和不正确的注释错误方面的有效性。值得注意的是,即使在注释噪声高达90%的极端情况下,我们的模型也表现出卓越的性能。

21. A Query-Parallel Machine Reading Comprehension Framework for Low-resource NER

链接:https://aclanthology.org/2023.findings-emnlp.135/

摘要:命名实体识别(NER)是自然语言处理中的基础任务。最近,NER已被构建为一项机器阅读理解(MRC)任务,其中使用手工制作的查询来提取不同类型的实体。然而,当前基于MRC的NER技术仅限于一次提取单一类型的实体,并且主要针对资源丰富的环境。这使得它们在推理阶段效率低下,同时也没有充分发挥它们在低资源环境中的潜力。我们提出了一种并行查询的基于MRC的方法来解决这些问题,它能够同时提取多种实体类型,并适用于资源丰富和资源有限的环境。具体来说,我们提出了一种并行查询编码器,它使用一个分段的注意力机制来隔离查询的语义,并以单向流的形式模拟查询-上下文交互。这使得模型更容易泛化到新的实体类型或转移到新领域。在通过编码器获得查询和上下文表示后,它们被输入到一个基于查询条件的双向预测器中,以一次提取多个实体。该模型采用参数高效的调整技术进行训练,使其更加数据高效。我们进行了广泛的实验,并证明了我们的模型在资源丰富的环境中与强基线方法表现竞争,并在低资源环境中实现了最先进的结果,包括从零开始训练、领域内转移和跨领域转移任务。

22. Causal Intervention-based Few-Shot Named Entity Recognition

链接:https://aclanthology.org/2023.findings-emnlp.1046/

摘要:少样本命名实体识别(NER)系统旨在使用有限的标注样本识别新类别的实体。然而,与样本充足的任务相比,这些系统面临着显著的过拟合挑战。这种过拟合主要是由于在选择少量样本时产生的偏见导致的虚假相关性。为了解决这个问题,我们在本文中提出了一种基于因果干预的少样本NER方法。我们的方法基于原型网络,在上下文中进行干预,以阻断上下文和标签之间的后门路径。在只有一次射击的情况下,由于没有额外的上下文可供干预,我们采用增量学习来对原型进行干预,这也有助于缓解灾难性遗忘。我们在各种基准测试上的实验表明,我们的方法实现了新的最先进结果。

23. MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition

链接:https://aclanthology.org/2023.findings-emnlp.134/

摘要:我们介绍了MULTICONER V2,这是一个细粒度命名实体识别数据集,涵盖12种语言的33个实体类别,包括单语和多语环境。该数据集旨在解决NER中的以下实际挑战:(i)有效处理包括电影标题等复杂实体的细粒度类别,以及(ii)由打字错误或OCR错误产生的噪声导致性能下降。该数据集是从维基百科和维基数据等开放资源中编制的,并可公开获取。基于XLM-RoBERTa基线的评估突出了MULTICONER V2所面临的独特挑战:(i)细粒度分类是具有挑战性的,其中宏F1得分低,为0.63(跨所有语言),以及(ii)损坏策略显著损害性能,实体损坏导致相对于所有语言中的非实体损坏而言性能降低了9%。这突显了实体噪声相对于上下文噪声的更大影响。

24. NERvous About My Health: Constructing a Bengali Medical Named Entity Recognition Dataset

链接:https://aclanthology.org/2023.findings-emnlp.383/

摘要:识别文本中重要实体的能力,即命名实体识别(NER),在生物医学领域的各种下游任务中非常有用。当处理消费者健康问题(CHQ)时,这是一项相当困难的任务,因为CHQ包含患者日常生活中使用的非正式语言。在孟加拉语的情况下,这些困难被放大,因为孟加拉语允许句子结构的巨大灵活性,并且在区域方言中存在显着差异。不幸的是,语言的复杂性没有准确反映在有限的可用数据中,这使得构建可靠的决策系统变得困难。为了解决数据稀缺性问题,本文提出了“Bangla-HealthNER”,这是一个全面的数据集,旨在识别孟加拉语健康相关文本中的命名实体。它包括31,783个样本,这些样本来自一个流行的在线公共卫生平台,这使它能够捕获各种地区的母语人士在日常生活中使用的不同语言风格和方言。对这种语言多样性的洞察将对开发用于实际应用的医学决策系统非常有用。为了突出数据集的难度,它已经在最先进的标记分类模型上进行了基准测试,其中BanglishBERT的F1分数为56.13±0.75%。该数据集及其所有相关代码已公开发布。

25. Type-Aware Decomposed Framework for Few-Shot Named Entity Recognition

链接:https://aclanthology.org/2023.findings-emnlp.598/

摘要:尽管最近几个两阶段原型网络在少样本命名实体识别(NER)任务中取得了成功,但在跨度检测阶段过度检测的假跨度和在类型分类阶段不准确且不稳定的原型仍然是挑战性问题。在本文中,我们提出了一种新型的类型感知分解框架,即TadNER,以解决这些问题。我们首先提出了一种类型感知跨度过滤策略,通过移除与类型名称在语义上相距甚远的假跨度来过滤掉它们。然后,我们提出了一种类型感知对比学习策略,通过共同利用支持样本和类型名称作为参考,构建更准确和稳定的原型。在各种基准上的广泛实验证明,我们提出的TadNER框架实现了新的最先进性能。

26. GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets

链接:https://aclanthology.org/2023.findings-emnlp.548/

摘要:NER模型在各种NLP任务中发挥着关键作用,包括信息提取(IE)和文本理解。在学术写作中,对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分,需要准确的模型来识别。尽管NER取得了进步,现有的真实数据集并没有将像ML模型和模型架构这样的细粒度类型作为单独的实体类型处理,因此基线模型无法将它们识别为此类。在本文中,我们发布了一个由100篇手动注释的全文科学出版物组成的语料库,以及针对围绕ML模型和数据集的10种实体类型的第一个基线模型。为了提供对ML模型和数据集如何被提及和使用的细致理解,我们的数据集还包含了对非正式提及的注释,如“我们基于BERT的模型”或“图像CNN”。您可以在https://data.gesis.org/gsap/gsap-ner找到真是数据集和复制模型训练的代码。

27. Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset

链接:https://aclanthology.org/2023.emnlp-main.642/

摘要:尽管最近的预训练基于变压器的模型可以准确地执行命名实体识别(NER),但在应用于长文档(如整部小说)时,其有限的范围仍然是一个问题。为了缓解这个问题,一种解决方案是在文档级别检索相关上下文。不幸的是,这样的任务缺乏监督,意味着只能采用无监督方法。相反,我们提出使用Alpaca(一种指令调优的大型语言模型(LLM))生成合成的上下文检索训练数据集。使用这个数据集,我们训练了一个基于BERT模型的神经上下文检索器,能够为NER找到相关上下文。我们展示了我们的方法在一个由40本书的第一章组成的英文文学数据集上的NER任务超越了几个检索基准。

28. Re-weighting Tokens: A Simple and Effective Active Learning Strategy for Named Entity Recognition

链接:https://aclanthology.org/2023.findings-emnlp.847/

摘要:主动学习是一种广泛采用的技术,用于在文本和图像分类任务中增强有限注释资源的机器学习模型,但在命名实体识别(NER)领域却相对受到较少关注。NER中的数据不平衡问题阻碍了主动学习的有效性,因为序列标记器缺乏足够的学习信号。为了应对这些挑战,本文提出了一种基于重新加权的主动学习策略,为各个令牌分配动态平滑权重。这种适应性策略与各种令牌级获取函数兼容,有助于鲁棒主动学习者的发展。在多个语料库上的实验结果显示,将我们的重新加权策略纳入现有获取函数中可以实现显著的性能提升,证实了其实际效果。本文将在发表后发布我们的实现。

29. SmartSpanNER: Making SpanNER Robust in Low Resource Scenarios

链接:https://aclanthology.org/2023.findings-emnlp.535/

摘要:命名实体识别(NER)是自然语言处理中最基本的任务之一。相比于序列标注(SeqLab),跨度级预测(SpanNER)对于嵌套型NER来说更为自然合适。然而,根据我们的实验,SpanNER方法对训练数据量的敏感度更高,即当训练数据减少时,SpanNER的F1分数下降幅度远大于SeqLab。为了提高SpanNER在低资源环境中的鲁棒性,我们提出了一种简单有效的方法SmartSpanNER,它向SpanNER引入了一个命名实体头(NEH)预测任务,并与跨度分类任务一起进行多任务学习。实验结果表明,在CoNLL03、Few-NERD、GENIA和ACE05标准基准数据集构建的低资源场景中,SmartSpanNER可以显著提高SpanNER的鲁棒性。

30. Toward a Critical Toponymy Framework for Named Entity Recognition: A Case Study of Airbnb in New York City

链接:https://aclanthology.org/2023.emnlp-main.284/

摘要:关键地名学通过地名及其所指的地点研究权力、资本和抵抗的动态。这里的研究传统上关注地名的语义内容和产生它们的自上而下的机构过程。然而,它们通常忽略了地名在日常话语中被普通人使用的方式,以及伴随和情境化地名参考的其他地理空间描述策略。在这里,我们开发了计算方法,通过一个包含47,440个2010年代纽约市Airbnb列表的新颖注释数据集,测量文化和经济资本如何塑造人们提到地点的方式。基于这个数据集,我们引入了一种新的命名实体识别(NER)模型,能够识别与地点表征密切相关的重要话语类别。我们的研究结果指向了关键地名学的新方向,以及一系列以前未被研究的语言信号,这些信号与社区地位、住房和旅游市场以及新兴社区的研究相关。

31. Biomedical Named Entity Recognition via Dictionary-based Synonym Generalization

链接:https://aclanthology.org/2023.emnlp-main.903/

摘要:生物医学命名实体识别是生物医学自然语言处理(BioNLP)中的核心任务之一。为了解决这个任务,已经提出了许多监督/远程监督方法。尽管这些方法取得了显著的成功,但它们不可避免地需要大量的人力劳动。为了减轻人力劳动的需求,已经提出了基于字典的方法,仅基于给定的字典提取命名实体。然而,现有基于字典的方法的一个缺点是,它们很难识别未在给定字典中列出的概念同义词,我们将其称为同义词泛化问题。在这项研究中,我们提出了一种新颖的同义词泛化(SynGen)框架,使用基于跨度的预测识别输入文本中包含的生物医学概念。具体而言,SynGen引入了两个正则化项,即(1)同义词距离正则化器;和(2)噪声扰动正则化器,以最小化同义词泛化误差。为了证明我们的方法的有效性,我们提供了同义词泛化误差界的理论分析。我们在广泛的基准测试中对我们的方法进行了广泛的评估,结果验证了SynGen以显着的优势优于以前的基于字典的模型。最后,我们提供了详细的分析,以进一步揭示我们的方法的优点和内部工作原理。

32. SKD-NER: Continual Named Entity Recognition via Span-based Knowledge Distillation with Reinforcement Learning

链接:https://aclanthology.org/2023.emnlp-main.413/

摘要:连续学习命名实体识别(CL-NER)旨在使模型能够不断学习新的实体类型,同时保留识别先前学习的实体类型的能力。然而,当前的策略在有效解决先前学习的实体类型的灾难性遗忘方面存在缺陷。为了解决这个问题,我们提出了SKD-NER模型,这是一种基于跨度的高效连续学习NER模型,创新地融合了强化学习策略,以增强模型对灾难性遗忘的能力。具体而言,我们利用知识蒸馏(KD)来保留记忆,并在KD过程中采用强化学习策略来优化由教师模型生成的软标签和蒸馏损失,以有效防止连续学习过程中的灾难性遗忘。这种方法有效地防止或减轻了连续学习过程中的灾难性遗忘,使模型能够在获取新知识的同时保留先前学习的知识。我们在两个基准数据集上的实验表明,我们的模型显著提高了CL-NER任务的性能,优于现有的最先进方法。

33. CASSI: Contextual and Semantic Structure-based Interpolation Augmentation for Low-Resource NER

链接:https://aclanthology.org/2023.findings-emnlp.651/

摘要:虽然文本增强方法在改善低资源环境下的性能方面取得了成功,但它们在像NER这样的标记级任务中存在注释损坏的问题。此外,现有方法无法可靠地为数据集添加上下文多样性,而这对于低资源NER至关重要。在这项工作中,我们提出了一种名为Contextual and Semantic Structure-based Interpolation(CASSI)的新型增强方案,该方案通过结构化地组合一对语义相似的句子来生成新句子,从而生成高质量的上下文多样性增强,同时避免了注释损坏,同时保持语义正确性和流畅性。为了实现这一点,我们通过在一对语义相似的句子中执行多个基于依赖关系的交换来生成候选增强,然后使用预训练的Masked Language Model和一种促进特异性的度量来对它们进行过滤。实验表明,CASSI在多个低资源级别、多种语言和嘈杂和干净文本上始终优于现有方法。

  • 27
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值