AI推介-信息抽取(information extraction,NER)论文速览(arXiv方向):2024.01.01-2024.02.15

1.Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking

标题:大规模多元文化知识获取与 LM 基准测试

author:Yi Fung, Ruining Zhao, Jae Doo, Chenkai Sun, Heng Ji

publish:preprint

date Time:2024-02-14

paper pdf:http://arxiv.org/pdf/2402.09369v1

摘要
预训练的大型语言模型为许多应用带来了革命性的变化,但仍然面临着与文化偏见有关的挑战,以及缺乏对指导跨文化交流和互动至关重要的文化常识性知识。认识到现有方法在捕捉全球丰富多样的文化方面存在不足,本文介绍了一种大规模多元文化知识获取的新方法。具体来说,我们的方法从信息密集的维基百科文化主题文档到广泛的链接页面网络进行战略性导航。利用这一宝贵的数据收集来源,我们构建了 CultureAtlas 数据集,该数据集涵盖了广泛的亚国家级地理区域和民族语言群体,并进行了数据清理和预处理,以确保文本断言句子自含,以及细粒度的文化概况信息提取。我们的数据集不仅有助于评估语言模型在不同文化背景下的性能,还可作为开发文化敏感和感知语言模型的基础工具。我们的工作标志着在人工智能领域深入理解和弥合文化差异鸿沟方面迈出了重要一步,从而促进在数字领域更加包容和均衡地呈现全球文化。

2.Leveraging Large Language Models for Enhanced NLP Task Performance through Knowledge Distillation and Optimized Training Strategies

标题:通过知识提炼和优化训练策略,利用大型语言模型提高 NLP 任务性能

author:Yining Huang, Keke Tang, Meilian Chen

publish:16 pages, 3 figures

date Time:2024-02-14

paper pdf:http://arxiv.org/pdf/2402.09282v4

摘要
像 GPT-4 这样的新兴大型语言模型(LLM)已经彻底改变了自然语言处理(NLP),并在命名实体识别(NER)等传统任务中显示出潜力。我们的研究探索了一种三阶段训练策略,利用 GPT-4 的能力来提高 BERT 模型的 NER 性能。起初,GPT-4 对 CONLL2003 和 BBC 数据集的一个子集进行注释,而不进行微调。然后,我们使用原始数据和 LLM 注释数据混合训练 BERT,分析 LLM 注释与传统方法相比的功效。第二阶段是使用不同的训练方法进行对比实验,评估蒸馏数据和原始数据之间的协同作用。我们观察到,顺序策略,尤其是先用蒸馏数据再用原始数据进行训练的简单组合,能显著提高性能。在第三阶段,我们研究了各种数据混合技术,包括 sigmoid 和幂衰减函数,以进一步优化训练过程。我们的研究结果表明,对蒸馏数据和原始数据进行策略性混合能明显提高 BERT 的 NER 能力。我们的方法提出了一种可扩展的方法,可降低人工标注成本并提高效率,因此特别适用于资源有限和封闭网络环境。研究得出的结论是,虽然 "简单混合 "策略能产生最佳结果,但要了解其基本机制还需要进一步研究。未来的工作还将侧重于完善提示设计和增强注释选择过程,旨在将我们的方法扩展到各种 NLP 任务中。

3.NLP for Knowledge Discovery and Information Extraction from Energetics Corpora

标题:从能源学语料库中进行知识发现和信息提取的 NLP

author:Francis G. VanGessel, Efrem Perry, Salil Mohan, Oliver M. Barham, Mark Cavolowsky

date Time:2024-02-10

paper pdf:http://arxiv.org/pdf/2402.06964v1

摘要
我们展示了 NLP 在帮助研究高能材料和相关系统方面的实用性。NLP 方法可实现对文本数据的机器理解,为从能源文本中发现知识和提取信息提供了自动化途径。我们应用了三种成熟的无监督 NLP 模型:Latent Dirichlet Allocation、Word2Vec 和 Transformer 模型。我们证明,每种 NLP 算法都能识别能量主题和概念,生成与主题专家知识相一致的语言模型。此外,我们还介绍了一个针对能源文本的文档分类管道。根据所使用的 NLP 模型,我们的分类管道实现了 59-76% 的准确率,其中性能最高的 Transformer 模型可与注释者之间的一致性指标相媲美。这项工作中研究的 NLP 方法可以识别与能源相关的概念,因此有望成为加速能源研究工作和能源材料开发的工具。

4.PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition

标题:PaDeLLM-NER:用于命名实体识别的大型语言模型并行解码

author:Jinghui Lu, Ziwei Yang, Yanjie Wang, Xuejing Liu, Brian Mac Namee, Can Huang

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04838v4

摘要
在这项研究中,我们的目标是利用大型语言模型(LLM)减少命名实体识别(NER)的生成延迟。造成 LLM 高延迟的主要原因是顺序解码过程,该过程会自动生成 NER 的所有标签和提及,从而大大增加了序列长度。为此,我们引入了针对 NE} 的 LLM 并行解码技术(PaDeLLM-NER)。(PaDeLLM-NER),这种方法可无缝集成到现有的生成模型框架中,无需额外的模块或架构修改。PaDeLLM-NER 允许同时对所有提及进行解码,从而减少了生成延迟。实验表明,PaDeLLM-NER 极大地提高了推理速度,在中英文两种语言中,推理速度是自回归方法的 1.76 到 10.22 倍。同时,PaDeLLM-NER 还保持了预测的质量,在各种数据集上的表现与最先进的方法不相上下。

5.Learning to Extract Structured Entities Using Language Models

标题:学习使用语言模型提取结构化实体

author:Haolun Wu, Ye Yuan, Liana Mikaelyan, Alexander Meulemans, Xue Liu, James Hensman, Bhaskar Mitra

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.04437v4

摘要
机器学习的最新进展对信息提取领域产生了重大影响,其中语言模型(LM)在从非结构化文本中提取结构化信息方面发挥了关键作用。之前的研究通常将信息提取表述为以三元组为中心,并使用精确度和召回率等经典指标进行评估。我们将这一任务重新表述为以实体为中心,从而能够使用不同的指标,从不同角度提供更多的见解。我们引入了结构化实体提取,并提出了近似实体集叠加(AESOP)指标,旨在适当评估模型性能,从而为该领域做出贡献。随后,我们介绍了一种新模型,该模型通过将提取任务分解为多个阶段,利用 LM 的强大功能来提高有效性和效率。定量和人工并排评估证实,我们的模型性能优于基线模型,为结构化实体提取的未来发展指明了方向。

6.In-Context Learning for Few-Shot Nested Named Entity Recognition

标题:少镜头嵌套命名实体识别的上下文学习

author:Meishan Zhang, Bin Wang, Hao Fei, Min Zhang

publish:5 figures

date Time:2024-02-02

paper pdf:http://arxiv.org/pdf/2402.01182v1

摘要
在嵌套式命名实体识别(NER)中,实体之间相互嵌套,因此需要更多的数据注释来处理。这就导致了嵌套式 NER 的发展,而在嵌套式 NER 中,采用上下文学习(ICL)的预训练语言模型的普及提供了很有前景的解决方案。在这项工作中,我们为少量嵌套 NER 的设置引入了一个有效且创新的 ICL 框架。我们通过设计一种新颖的示例演示选择机制 EnDe retriever 来改进 ICL 提示。在 EnDe retriever 中,我们采用对比学习来执行语义相似性、边界相似性和标签相似性三类表征学习,从而生成高质量的示范示例。在三个嵌套 NER 和四个平面 NER 数据集上进行的广泛实验证明了我们系统的功效。

7.The Impact of Language Adapters in Cross-Lingual Transfer for NLU

标题:语言适配器在跨语言迁移中对 NLU 的影响

author:Jenny Kunz, Oskar Holmström

date Time:2024-01-31

paper pdf:http://arxiv.org/pdf/2402.00149v1

摘要
模块化深度学习已被提出,用于将预先训练好的模型高效地适应新的任务、领域和语言。特别是,在一种语言没有监督数据的情况下,将语言适配器与任务适配器相结合显示出了潜力。在本文中,我们探讨了语言适配器在自然语言理解(NLU)基准的零点跨语言转移中的作用。我们使用两种多语言模型和三种多语言数据集,在详细的消融研究中研究了目标语言适配器的效果。结果表明,目标语言适配器在不同任务、语言和模型中的效果极不一致。保留源语言适配器往往会带来同等的性能,有时甚至更好。在训练后移除语言适配器只有微弱的负面影响,这表明语言适配器对预测的影响并不大。

8.Majority or Minority: Data Imbalance Learning Method for Named Entity Recognition

标题:多数或少数:用于命名实体识别的数据不平衡学习法

author:Sota Nemoto, Shunsuke Kitada, Hitoshi Iyatomi

publish:5 pages, 1 figures, 3 tables. Accepted at Practical ML for Low
Resource Settings (PML4LRS) Workshop @ ICLR 2024

date Time:2024-01-21

paper pdf:http://arxiv.org/pdf/2401.11431v2

摘要
在各种机器学习(ML)任务中,尤其是自然语言处理(NLP)中的命名实体识别(NER),数据不平衡是一个重大挑战。命名实体识别(NER)呈现出长尾分布的数据不平衡现象,即众多少数类(即实体类)和单一多数类(即 O 类)。这种不平衡会导致实体类被误判为 O 类。为了解决这个问题,我们提出了一种简单有效的学习方法,即多数或少数(MoM)学习法。多数或少数学习将只对基本真相是多数类的样本计算的损失纳入传统 ML 模型的损失中。在四个 NER 数据集(日语和英语)上进行的评估实验表明,MoM 学习提高了少数类的预测性能,而没有牺牲多数类的性能,并且比广为人知的最先进方法更有效。我们还利用 NER 中常用的顺序标记和机器阅读理解等框架对 MoM 学习进行了评估。此外,无论使用哪种语言或框架,MoM 学习都能持续提高性能。

9.Mining experimental data from Materials Science literature with Large Language Models: an evaluation study

标题:利用大型语言模型从材料科学文献中挖掘实验数据:一项评估研究

author:Luca Foppiano, Guillaume Lambard, Toshiyuki Amagasa, Masashi Ishii

publish:40 pages: 5 figures and 1 table in the body. 32 Tables in the
Appendix / Supplementary materials

date Time:2024-01-19

paper pdf:http://arxiv.org/pdf/2401.11052v3

摘要
本研究致力于评估 GPT-3.5-Turbo、GPT-4 和 GPT-4-Turbo 等大型语言模型(LLM)从材料科学科学文档中提取结构化信息的能力。为此,我们主要关注信息提取的两个关键任务:(i) 所研究材料和物理特性的命名实体识别(NER)和 (ii) 这些实体之间的关系提取(RE)。由于材料信息学(MI)领域明显缺乏数据集,我们使用基于超导体研究的 SuperMat 和通用测量评估语料库 MeasEval 进行了评估。LLM 在执行这些任务时的性能与基于 BERT 架构的传统模型和基于规则的方法(基准)进行了比较。我们为错综复杂的材料表达式的比较分析引入了一种新方法,强调化学公式的标准化,以解决材料科学信息评估中固有的复杂性问题。在 NER 方面,LLMs 在零次提示的情况下无法超越基线,在少次提示的情况下也仅表现出有限的改进。然而,针对 RE 采用适当策略进行微调的 GPT-3.5-Turbo 则优于所有模型,包括基准模型。在没有进行任何微调的情况下,GPT-4 和 GPT-4-Turbo 仅在提供了几个示例后就显示出了卓越的推理和关系提取能力,超过了基线。总之,研究结果表明,尽管 LLM 在连接概念方面表现出了相关的推理能力,但对于需要提取复杂的特定领域实体(如材料)的任务来说,专业化模型目前是更好的选择。这些见解为今后工作中适用于其他材料科学子领域提供了初步指导。

10.A survey on recent advances in named entity recognition

标题:命名实体识别最新进展概览

author:Imed Keraghel, Stanislas Morbieu, Mohamed Nadif

publish:30 pages

date Time:2024-01-19

paper pdf:http://arxiv.org/pdf/2401.10825v1

摘要
命名实体识别(Named Entity Recognition)旨在提取文本中命名现实世界对象的子串,并确定其类型(例如,是指人还是组织)。在这份调查报告中,我们首先概述了近期流行的方法,同时还研究了基于图和转换器的方法,包括在其他调查报告中未涉及的大型语言模型(LLM)。其次,我们将重点放在为注释稀缺的数据集设计的方法上。第三,我们评估了主要 NER 实现在各种具有不同特征(领域、规模和类数)的数据集上的性能。因此,我们对从未一起考虑过的算法进行了深入比较。我们的实验揭示了数据集的特征如何影响我们所比较的方法的行为。

11.Named Entity Recognition Under Domain Shift via Metric Learning for Life Sciences

标题:通过面向生命科学的度量学习实现领域转移下的命名实体识别

author:Hongyi Liu, Qingyun Wang, Payam Karisani, Heng Ji

publish:21 pages; Accepted by the 2024 Conference of the North American
Chapter of the Association for Computational Linguistics: Human Language
Technologies; Code, data, and resources are publicly available for research
purposes: https://github.com/Lhtie/Bio-Domain-Transfer

date Time:2024-01-19

paper pdf:http://arxiv.org/pdf/2401.10472v2

摘要
命名实体识别是信息提取(IE)的一个关键组成部分,尤其是在生物医学和化学等科学领域,大型语言模型(LLM)(如 ChatGPT)在这方面存在不足。我们研究了迁移学习对于增强在生物医学领域(源领域)训练的命名实体识别模型以用于化学领域(目标领域)的适用性。在少量学习设置中训练此类模型的常见做法是,在标注的源数据上对模型进行预训练,然后在大量标注的目标示例上对模型进行微调。在我们的实验中,我们发现这种模型很容易将文本中经常出现的源实体误标注为目标实体。为了缓解这一问题,我们提出了一个模型,将源领域的知识转移到目标领域,但同时将源实体和目标实体投射到特征空间的不同区域。这就降低了将源实体误标注为目标实体的风险。我们的模型包括两个阶段:1) 源域中的实体分组,结合注释事件的知识来建立实体之间的关系;2) 目标域中的实体辨别,依靠伪标记和对比学习来提高两个域中实体之间的辨别能力。我们在三个源数据集和三个目标数据集上进行了广泛的实验,结果表明我们的方法比基线方法的绝对值高出 5%。

12.UMIE: Unified Multimodal Information Extraction with Instruction Tuning

标题:UMIE:带有指令调整功能的统一多模态信息提取技术

author:Lin Sun, Kai Zhang, Qingyuan Li, Renze Lou

date Time:2024-01-05

paper pdf:http://arxiv.org/pdf/2401.03082v1

摘要
随着多媒体内容的普及,多模态信息提取(MIE)备受关注。然而,目前的多模态信息提取方法通常使用特定任务的模型结构,这导致跨任务的通用性有限,并且没有充分利用多模态信息提取任务之间的共享知识。为了解决这些问题,我们提出了统一的多模态信息提取器 UMIE,利用指令调整将三个 MIE 任务统一为一个生成问题,能够有效地提取文本和视觉信息。广泛的实验表明,在六个 MIE 数据集的三个任务中,我们的单一 UMIE 优于各种最先进(SoTA)的方法。此外,深入分析还证明了 UMIE 在零镜头环境下的强大泛化能力、对指令变体的鲁棒性以及可解释性。我们的研究为建立统一的 MIE 模型迈出了第一步,并开启了在 MIE 领域对指令调整和大型语言模型的探索。我们的代码、数据和模型可在 https://github.com/ZUCC-AI/UMIE 上获取。

13.DocGraphLM: Documental Graph Language Model for Information Extraction

标题:DocGraphLM:用于信息提取的文档图语言模型

author:Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah

publish:Published at SIGIR’23 (repost for easier access)

date Time:2024-01-05

paper pdf:http://arxiv.org/pdf/2401.02823v1

摘要
丰富可视化文档理解(VrDU)技术的进步使得信息提取和问题解答成为可能。目前出现了两种架构–受 LLM 启发的基于变换器的模型和图神经网络。在本文中,我们介绍了 DocGraphLM,这是一种将预训练语言模型与图语义相结合的新型框架。为此,我们提出了 1) 表示文档的联合编码器架构,以及 2) 重建文档图的新型链接预测方法。DocGraphLM 使用收敛的联合损失函数预测节点之间的方向和距离,该函数优先考虑邻域恢复,并降低远处节点检测的权重。我们在三个 SotA 数据集上进行的实验表明,采用图特征后,IE 和 QA 任务的性能得到了持续改善。此外,我们还报告称,在训练过程中,尽管图特征仅通过链接预测来构建,但采用图特征加快了学习过程的收敛速度。

14.An Autoregressive Text-to-Graph Framework for Joint Entity and Relation Extraction

标题:用于联合提取实体和关系的自回归文本到图框架

author:Urchade Zaratiana, Nadi Tomeh, Pierre Holat, Thierry Charnois

publish:AAAI 2024 (camera ready version)

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01326v2

摘要
在本文中,我们提出了一种从非结构化文本中联合提取实体和关系的新方法,将其视为条件序列生成问题。传统的生成式信息提取模型是从左到右的标记级生成器,而我们的方法则是(textit{span-based})基于文本跨度的生成器。它生成一个线性化图,其中节点代表文本跨度,边代表关系三连。我们的方法在跨度和关系类型的动态词汇表上采用了带有指向机制的转换器编码器-解码器架构。我们的模型可以通过跨度表示捕捉实体和关系的结构特征和边界,同时通过指向机制将生成的输出结果建立在原文的基础上。在基准数据集上进行的评估验证了我们方法的有效性,并展示了具有竞争力的结果。代码见 https://github.com/urchade/ATG。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值