AI推介-信息抽取(information extraction,NER)论文速览(arXiv方向):2024.06.01-2024.06.20

文章目录~


通用信息抽取: 第10篇

1.Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks

标题:在检索增强生成框架中使用微调大语言模型进行关系提取

author:Sefika Efeoglu, Adrian Paschke

publish:preprint

date Time:2024-06-20

paper pdf:http://arxiv.org/pdf/2406.14745v2

摘要
信息提取(IE)对于将非结构化数据转换为知识图谱(KG)等结构化格式至关重要。信息提取中的一项关键任务是关系提取(RE),即识别文本中实体之间的关系。目前存在各种关系提取方法,包括有监督、无监督、弱监督和基于规则的方法。最近,利用预训练语言模型(PLM)的研究在这一领域取得了巨大成功。在当前以大型语言模型(LLM)为主导的时代,对这些模型进行微调可以克服基于 LLM 提示的 RE 方法的局限性,尤其是在领域适应挑战和识别句子中实体之间的隐式关系方面。这些隐含关系无法轻易从句子的依赖关系树中提取,需要通过逻辑推理才能准确识别。这项研究探索了微调 LLM 的性能,并将其集成到基于检索增强(RAG)的 RE 方法中,以解决在句子层面识别隐式关系的难题,尤其是当 LLM 在 RAG 框架中充当生成器时。在 TACRED、TACRED-Revisited (TACREV)、Re-TACRED 和 SemEVAL 数据集上进行的实证评估表明,经过微调的 LLM(包括 Llama2-7B、Mistral-7B 和 T5 (Large))可以显著提高性能。值得注意的是,我们的方法在隐式关系非常普遍的 SemEVAL 数据集上取得了大幅提升,超越了之前在该数据集上的结果。此外,我们的方法在 TACRED、TACREV 和 Re-TACRED 上的表现也优于之前的研究成果,在不同的评估场景中都表现出了卓越的性能。

2.Converging Dimensions: Information Extraction and Summarization through Multisource, Multimodal, and Multilingual Fusion

标题:融合维度:通过多源、多模态和多语言融合进行信息提取和总结

author:Pranav Janjani, Mayank Palan, Sarvesh Shirude, Ninad Shegokar, Sunny Kumar, Faruk Kazi

publish:11 pages, 3 figures

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13715v1

摘要
大型语言模型(LLM)的最新进展带来了新的摘要策略,为提取重要信息提供了广泛的工具包。然而,这些方法往往由于依赖于孤立的数据源而受到限制。可收集的信息量有限,涵盖的主题范围也较小,这就带来了伪造内容的可能性,而且对多语言和多模态数据的支持也很有限。本文提出了一种新颖的摘要方法,通过利用多种来源的优势来提供对复杂主题更详尽、更丰富的理解,从而应对这些挑战。该研究超越了文本文档等传统的单模态来源,整合了更多样化的数据,包括 YouTube 播放列表、预印本和维基百科页面。然后将上述各种来源转换成统一的文本表示,从而实现更全面的分析。这种多方面的摘要生成方法使我们能够从更广泛的来源中提取相关信息。这种方法的主要原则是在最大限度地获取信息的同时,尽量减少信息重叠,并保持较高的信息量,从而鼓励生成高度一致的摘要。

3.Encoder vs Decoder: Comparative Analysis of Encoder and Decoder Language Models on Multilingual NLU Tasks

标题:编码器与解码器:多语言 NLU 任务中编码器和解码器语言模型的对比分析

author:Dan Saattrup Nielsen, Kenneth Enevoldsen, Peter Schneider-Kamp

publish:14 pages, 2 figures

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13469v1

摘要
本文探讨了编码器和解码器语言模型在多语言自然语言理解(NLU)任务中的表现,重点广泛放在日耳曼语言上。ScandEval 基准最初仅限于评估编码器模型,在此基础上,我们将评估框架扩展到解码器模型。我们介绍了在 NLU 任务中评估解码器模型的方法,并将其应用于丹麦语、瑞典语、挪威语、冰岛语、法罗群岛语、德语、荷兰语和英语。通过一系列实验和分析,我们解决了有关编码器和解码器模型的性能比较、NLU 任务类型的影响以及不同语言资源之间的差异等关键研究问题。我们的研究结果表明,解码器模型的 NLU 性能明显优于编码器模型,不同任务和语言之间存在细微差别。此外,我们还通过 UMAP 分析研究了解码器和任务性能之间的相关性,从而揭示了解码器和编码器模型的独特能力。这项研究有助于加深对 NLU 任务中语言模型范例的理解,并为多语言环境中的模型选择和评估提供了宝贵的见解。

4.In-Context Learning on a Budget: A Case Study in Named Entity Recognition

标题:预算内的上下文学习:命名实体识别案例研究

author:Uri Berger, Tal Baumel, Gabriel Stanovsky

date Time:2024-06-19

paper pdf:http://arxiv.org/pdf/2406.13274v1

摘要
少有的情境内学习(ICL)通常假定可以获得大量的注释训练集。然而,在领域适应等许多现实场景中,只有有限的预算来注释少量样本,目的是最大限度地提高下游性能。我们研究了在预定预算内选择要注释的样本的各种方法,特别关注命名实体识别(NER)任务,该任务在现实世界中应用广泛,注释成本高昂,在 ICL 设置中研究相对较少。在不同的模型和数据集中,我们发现相对较小的注释样本池也能获得与使用整个训练集相当的结果。此外,我们还发现,随机选择样本进行注释会产生令人惊讶的良好性能。最后,我们观察到,多样化的注释库与性能的提高相关。我们希望未来的工作能采用我们的现实范例,将注释预算考虑在内。

5.Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages

标题:用于模型堆叠的自蒸馏技术解锁 200 多种语言的跨语言 NLU

author:Fabian David Schmidt, Philipp Borchert, Ivan Vulić, Goran Glavaš

date Time:2024-06-18

paper pdf:http://arxiv.org/pdf/2406.12739v1

摘要
LLM 不仅是文本生成的首选解决方案,也是自然语言理解(NLU)任务的首选解决方案。通过对网络规模的语料库进行语言建模,LLMs 获得了广泛的知识,在英语 NLU 方面表现出色,但在将其 NLU 能力扩展到代表性不足的语言方面却举步维艰。与此相反,机器翻译模型(MT)能产生出色的多语言表述,即使对低资源语言也能产生强大的翻译性能。然而,MT 编码器缺乏全面的 NLU 所需的知识,而 LLM 通过在大量语料库上进行语言建模训练可以获得这些知识。在这项工作中,我们通过采样高效的自蒸馏将 MT 编码器直接集成到 LLM 骨干中,从而获得了两全其美的效果。由此产生的 MT-LLM 保留了 MT 编码器固有的多语言表述对齐性,使低资源语言能够利用以英语为中心的 LLM 中蕴含的丰富知识。我们将 MT 编码器和 LLM 合并为一个模型,从而减轻了翻译错误的传播以及基于离散翻译的跨语言传输(如翻译测试)所固有的 MT 解码推理开销。对三项著名的 NLU 任务和 127 种主要是低资源语言的评估表明,MT-LLM 在跨语言转换中非常有效。基于相同的 MT 模型,MT-LLM 大幅且持续地超越了 translate-test,这表明我们真正实现了 LLM 的多语言语言理解。

6.Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction

标题:自适应强化学习规划:利用大型语言模型提取复杂信息

author:Zepeng Ding, Ruiyang Ke, Wenhao Huang, Guochao Jiang, Yanda Li, Deqing Yang, Yanghua Xiao, Jiaqing Liang

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11455v1

摘要
对大型语言模型(LLM)的现有研究表明,它们可以通过多步骤规划来解决信息提取任务。然而,它们对复杂句子和任务的提取行为并不稳定,出现了误报和元素缺失等问题。我们观察到,分解复杂的提取任务并分步提取能有效提高 LLMs 的性能,而实体的提取顺序会显著影响 LLMs 的最终结果。本文提出了一种基于 LLM 的两阶段多步骤信息提取方法,并采用 RL 框架来执行多步骤规划。我们将顺序提取视为一个马尔可夫决策过程,构建了一个基于 LLM 的提取环境,设计了一个决策模块来自适应地提供对不同句子进行顺序实体提取的最优顺序,并利用 DDQN 算法来训练决策模型。我们还设计了适合 LLM 提取结果的奖励和评价指标。我们在多个公共数据集上进行了广泛的实验,以证明我们的方法在提高 LLMs 信息提取能力方面的有效性。

7.Large Language Models and Knowledge Graphs for Astronomical Entity Disambiguation

标题:用于天文实体消歧的大型语言模型和知识图谱

author:Golnaz Shapurian

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11400v1

摘要
本文介绍了在黑客马拉松期间进行的一项实验,重点是使用大型语言模型(LLM)和知识图谱聚类从天文文本中提取实体和关系。这项研究展示了一种对天文领域中可能出现在各种上下文中的实体进行消歧的方法。通过收集围绕特定实体的摘录并利用 GPT-4 语言模型,可以提取相关实体和关系。然后利用提取的信息构建知识图谱,并使用莱顿算法对其进行聚类。利用生成的莱顿社区来识别未知摘录与每个社区的关联百分比,从而实现消歧。该实验展示了将 LLM 与知识图谱聚类技术相结合用于天文研究信息提取的潜力。实验结果凸显了该方法在识别和消歧实体,以及根据实体之间的关系将其归入有意义的群组方面的有效性。

8.Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition

标题:超越边界:为开放式命名实体识别学习跨数据集和语言的通用实体分类法

author:Yuming Yang, Wantong Zhao, Caishuang Huang, Junjie Ye, Xiao Wang, Huiyuan Zheng, Yang Nan, Yuran Wang, Xueying Xu, Kaixin Huang, Yunke Zhang, Tao Gui, Qi Zhang, Xuanjing Huang

publish:20 pages. Project page: https://github.com/UmeanNever/B2NER

date Time:2024-06-17

paper pdf:http://arxiv.org/pdf/2406.11192v1

摘要
开放式命名实体识别(NER)涉及从任意领域识别任意类型的实体,对于大型语言模型(LLMs)来说仍然具有挑战性。最近的研究表明,在大量 NER 数据上对 LLM 进行微调可以提高其性能。然而,由于实体定义不一致和数据冗余,直接在现有数据集上进行训练会面临一些问题,从而限制了 LLMs 针对特定数据集的学习,阻碍了域外泛化。为了解决这个问题,我们提出了 B2NERD,这是一个用于开放式 NER 的内聚高效数据集,采用两步法从 54 个现有英文或中文数据集规范化而来。首先,我们检测各数据集中不一致的实体定义,并通过可区分的标签名称对其进行澄清,从而构建一个包含 400 多种实体类型的通用分类法。其次,我们使用数据剪枝策略来解决冗余问题,该策略会选择类别和语义多样性更高的较少样本。综合评估显示,B2NERD 显著提高了 LLMs 在开放式 NER 中的泛化能力。我们在 B2NERD 上训练的 B2NER 模型的 F1 分数比 GPT-4 高出 6.8-12.0 分,并在 15 个数据集和 6 种语言的 3 个域外基准中超过了以前的方法。

9.Augmenting Biomedical Named Entity Recognition with General-domain Resources

标题:利用通用领域资源增强生物医学命名实体识别能力

author:Yu Yin, Hyunjae Kim, Xiao Xiao, Chih Hsuan Wei, Jaewoo Kang, Zhiyong Lu, Hua Xu, Meng Fang, Qingyu Chen

publish:We make data, codes, and models publicly available via
https://github.com/qingyu-qc/bioner_gerbera

date Time:2024-06-15

paper pdf:http://arxiv.org/pdf/2406.10671v2

摘要
训练基于神经网络的生物医学命名实体识别(BioNER)模型通常需要大量昂贵的人工标注。虽然有几项研究利用多个 BioNER 数据集进行多任务学习以减少人力,但这种方法并不能持续提高性能,而且可能会在不同的生物医学语料库中引入标签模糊性。我们的目标是通过从与生物医学数据集概念重叠较少且易于获取的资源中进行迁移学习来应对这些挑战。在本文中,我们提出了 GERBERA,一种利用通用领域 NER 数据集进行训练的简单而有效的方法。具体来说,我们采用多任务学习方法,利用目标 BioNER 数据集和通用域数据集训练一个预先训练好的生物医学语言模型。随后,我们专门针对 BioNER 数据集对模型进行了微调。我们在八个实体类型的五个数据集上对 GERBERA 进行了系统评估,这些数据集共包含 81,410 个实例。尽管使用的生物医学资源较少,但与使用其他多个 BioNER 数据集训练的基线模型相比,我们的模型表现出了卓越的性能。具体来说,我们的模型在八种实体类型中的六种类型上始终优于基线模型,与来自五个不同语料库的八种生物医学实体类型的最佳基线性能相比,平均提高了 0.9%。在数据有限的 BioNER 数据集上,我们的方法尤其有效地提高了性能,在 JNLPBA-RNA 数据集上的 F1 分数提高了 4.7%。

10.GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks

标题:GLiNER 多任务:适用于各种信息提取任务的通用轻量级模型

author:Ihor Stepanov, Mykhailo Shtopko

publish:11 pages, 1 figure, 6 tables

date Time:2024-06-14

paper pdf:http://arxiv.org/pdf/2406.12925v1

摘要
信息提取任务需要准确、高效和可泛化的模型。经典的有监督深度学习方法可以实现所需的性能,但它们需要大型数据集,而且适应不同任务的能力有限。另一方面,大型语言模型(LLM)具有良好的泛化能力,这意味着它们可以根据用户要求适应许多不同的任务。但是,大型语言模型的计算成本很高,而且往往无法生成结构化的输出结果。在本文中,我们将介绍一种新型的 GLiNER 模型,它可以用于各种信息提取任务,同时又是一种小型编码器模型。我们的模型在零镜头 NER 基准上取得了 SoTA 性能,在问题解答、摘要和关系提取任务上取得了领先性能。此外,本文还将介绍使用 GLiNER 模型进行命名实体识别的自学习方法的实验结果。

11.RadEx: A Framework for Structured Information Extraction from Radiology Reports based on Large Language Models

标题:RadEx:基于大型语言模型的放射学报告结构化信息提取框架

author:Daniel Reichenpfader, Jonas Knupp, André Sander, Kerstin Denecke

date Time:2024-06-14

paper pdf:http://arxiv.org/pdf/2406.15465v1

摘要
全球每年有 30 多亿次放射检查和计算机断层扫描,其结果大多是包含自由文本的非结构化放射报告。尽管结构化报告具有潜在的优势,但其应用受到既定流程、资源限制和潜在信息丢失等因素的限制。然而,结构化信息对于自动分析、临床试验匹配和健康结果预测等各种用例都是必要的。本研究介绍了 RadEx,这是一个端到端框架,由 15 个软件组件和 10 个工件组成,用于开发从放射学报告中自动提取信息的系统。它通过提供一致的通用信息模型和设定模型开发边界,涵盖了从注释训练数据到提取信息的整个过程。具体来说,RadEx 允许临床医生定义临床领域(如乳腺 X 射线照相术)的相关信息,并创建报告模板。该框架既支持生成模型,也支持仅编码器模型,而且信息提取与模板填充的解耦使得模型的改进能够独立进行。根据 RadEx 框架开发信息提取系统有利于实施和维护,因为组件可以轻松交换,而标准化的工件可确保组件之间的互操作性。

12.Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM)

标题:利用多模态大语言模型(LLM)从平面内旋转文档中提取结构化数据的鲁棒性

author:Anjanava Biswas, Wrick Talukdar

publish:20 pages, 6 figures

date Time:2024-06-13

paper pdf:http://arxiv.org/pdf/2406.10295v1

摘要
多模态大型语言模型(LLM)在各种自然语言处理任务(包括从文档中提取数据)中表现出了卓越的性能。然而,这些模型的准确性会受到文档平面内旋转(也称为倾斜)的显著影响,而这是扫描文档实际应用场景中的一个常见问题。本研究调查了文档倾斜对三种最先进的多模态 LLM 数据提取准确性的影响:我们重点研究了从合成生成的具有不同倾斜度的样本文档中提取特定实体的问题。结果表明,文档偏斜对所有测试的 LLM 的数据提取准确性都有不利影响,影响的严重程度因模型而异。我们确定了每个模型的安全平面内旋转角度(SIPRA),并研究了倾斜对模型幻觉的影响。此外,我们还探讨了现有的偏斜检测和校正机制,并讨论了其潜在的局限性。我们提出了替代方法,包括开发新的多模态架构,这种架构本身对文件偏斜具有更强的鲁棒性,并在模型的预训练阶段纳入偏斜技术。此外,我们强调需要在更广泛的文档质量和条件下进行更全面的测试,以充分了解在真实世界场景中使用多模态 LLM 进行信息提取所面临的挑战和机遇。

13.Automated Information Extraction from Thyroid Operation Narrative: A Comparative Study of GPT-4 and Fine-tuned KoELECTRA

标题:从甲状腺手术叙述中自动提取信息:GPT-4 与微调 KoELECTRA 的比较研究

author:Dongsuk Jang, Hyeryun Park, Jiye Son, Hyeonuk Hwang, Sujin Kim, Jinwook Choi

publish:9 pages, 2 figures, 3 tables

date Time:2024-06-12

paper pdf:http://arxiv.org/pdf/2406.07922v1

摘要
在快速发展的医疗保健领域,人工智能(AI)的整合已成为临床工作流程自动化的关键组成部分,并将迎来一个高效、准确的新时代。本研究重点关注微调后的 KoELECTRA 模型与 GPT-4 模型相比所具有的变革能力,旨在促进从甲状腺手术叙述中自动提取信息。目前的研究领域主要采用严重依赖正则表达式的传统方法,这些方法在处理包含手术记录(包括冰冻活检报告)关键细节的自由文本格式时往往面临挑战。为解决这一问题,本研究利用先进的自然语言处理(NLP)技术,促进向更复杂的数据处理系统的范式转变。通过这项比较研究,我们希望在医疗保健领域推出一种更精简、更精确、更高效的文档处理方法,从而彻底改变医疗数据的处理和分析方式。

14.SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature

标题:SciRIFF:加强语言模型教学的资源–通过科学文献进行跟读

author:David Wadden, Kejian Shi, Jacob Morrison, Aakanksha Naik, Shruti Singh, Nitzan Barzilay, Kyle Lo, Tom Hope, Luca Soldaini, Shannon Zejiang Shen, Doug Downey, Hannaneh Hajishirzi, Arman Cohan

publish:Submitted to NeurIPS Datasets and Benchmarks 2024

date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.07835v2

摘要
我们介绍了 SciRIFF(用于指令跟踪和微调的科学资源),这是一个由 137K 个指令跟踪演示组成的数据集,包含 54 个任务,涵盖五种基本的科学文献理解能力:信息提取、摘要、问题解答、声明验证和分类。SciRIFF 演示的显著特点是其较长的输入上下文、详细的任务规范和复杂的结构化输出。虽然临床医学和化学等特定领域也有指导性资源,但 SciRIFF 是第一个专注于从广泛科学领域的研究文献中提取和综合信息的数据集。为了证明 SciRIFF 的实用性,我们开发了一种具有样本效率的策略,通过在一般领域和 SciRIFF 演示的组合上执行额外的微调,为科学领域调整通用的指令跟随模型。在对九个未完成的科学任务进行的评估中,我们的模型(称为 SciTulu)在 7B 和 70B 的尺度上分别比强大的 LLM 基线提高了 28.1% 和 6.5%,同时将一般指令跟随性能保持在基线的 2% 以内。我们乐观地认为,SciRIFF 将促进 LLM 的开发和评估,帮助研究人员浏览不断增长的科学文献。我们将发布我们的数据集、模型检查点以及数据处理和评估代码,以促进进一步的研究。

15.Fighting Against the Repetitive Training and Sample Dependency Problem in Few-shot Named Entity Recognition

标题:应对少量命名实体识别中的重复训练和样本依赖问题

author:Chang Tian, Wenpeng Yin, Dan Li, Marie-Francine Moens

publish:ieee access: https://doi.org/10.1109/ACCESS.2024.3374727

date Time:2024-06-08

paper pdf:http://arxiv.org/pdf/2406.05460v2

摘要
少量命名实体识别(NER)系统使用少量标注的训练实例来识别实体。一般的管道包括一个跨度检测器和一个实体类型分类器,前者用于识别文本中的实体跨度,后者用于为实体分配类型。目前的跨度检测器依赖大量的人工标注来指导训练。几乎所有跨度检测器都需要对基本跨度特征进行初始训练,然后再适应特定任务的特征。这一过程导致跨度检测器之间重复训练基本跨度特征。此外,基于度量的实体类型分类器(如原型网络)通常采用特定的度量方法来衡量查询样本与实体类型参照物之间的距离,最终为查询样本分配最可能的实体类型。然而,这些分类器会遇到样本依赖问题,主要原因是每个实体类型参照物的可用样本有限。为了应对这些挑战,我们提出了一种改进的少拍 NER 管道。首先,我们引入了一个在开放域维基百科数据上预先训练好的跨度检测器。它可用于初始化管道跨度检测器,以减少基本特征的重复训练。其次,我们利用大型语言模型(LLM)来设置可靠的实体类型参照,从而消除了对每种类型的少量样本的依赖。在各种数据集上进行的大量实验证明,与基线相比,我们的模型只需较少的训练步骤和人类标注数据就能表现出卓越的性能。特别是在细粒度的少量 NER 设置中,我们的模型优于包括 ChatGPT 在内的强大基线。我们将公开发布代码、数据集、LLM 输出和模型检查点。

16.Toward Reliable Ad-hoc Scientific Information Extraction: A Case Study on Two Materials Datasets

标题:实现可靠的临时科学信息提取:两个材料数据集的案例研究

author:Satanu Ghosh, Neal R. Brodnik, Carolina Frey, Collin Holgate, Tresa M. Pollock, Samantha Daly, Samuel Carton

date Time:2024-06-08

paper pdf:http://arxiv.org/pdf/2406.05348v1

摘要
我们探索了 GPT-4 从科学文献中进行基于模式的临时信息提取的能力。我们特别评估了 GPT-4 能否通过基本的提示方法,复制两个现有的材料科学数据集,并给出这些数据集最初是人工提取的手稿。我们请材料科学家进行了详细的人工错误分析,以评估该模型在哪些方面难以忠实地提取所需的信息,并借鉴他们的见解,为解决这一广泛而重要的任务提出研究方向。

17.llmNER: (Zero|Few)-Shot Named Entity Recognition, Exploiting the Power of Large Language Models

标题:llmNER:(零|少)镜头命名实体识别,利用大型语言模型的力量

author:Fabián Villena, Luis Miranda, Claudio Aracena

date Time:2024-06-06

paper pdf:http://arxiv.org/pdf/2406.04528v1

摘要
大语言模型(LLM)使我们能够生成高质量的类人文本。自然语言处理(NLP)中一项有趣的任务是命名实体识别(NER),它旨在检测文档中相关信息的提及。本文介绍的 llmNER 是一个 Python 库,用于使用 LLM 实现零次和少量 NER;通过提供一个易于使用的界面,llmNER 可以编写提示、查询模型和解析 LLM 返回的完成。此外,通过提供测试多个变量的简单界面,该库还能让用户高效地执行提示工程。通过消除提示和解析步骤的障碍,llmNER 旨在推动语境学习研究的发展。

18.ABEX: Data Augmentation for Low-Resource NLU via Expanding Abstract Descriptions

标题:ABEX:通过扩展抽象描述为低资源 NLU 扩充数据

author:Sreyan Ghosh, Utkarsh Tyagi, Sonal Kumar, C. K. Evuru, S Ramaneswaran, S Sakshi, Dinesh Manocha

publish:ACL 2024 Main Conference. Code and data:
https://github.com/Sreyan88/ABEX

date Time:2024-06-06

paper pdf:http://arxiv.org/pdf/2406.04286v1

摘要
我们介绍的 ABEX 是一种用于低资源自然语言理解(NLU)任务的新颖而有效的生成数据增强方法。ABEX 基于 ABstract-and-EXpand 方法,这是一种生成输入文档的多种形式的新模式–我们首先将文档转换为简洁的抽象描述,然后在扩展抽象描述的基础上生成新文档。为了学习扩展抽象描述的任务,我们首先在一个包含抽象文档对的大规模合成数据集上训练 BART。接下来,为了生成文档的抽象描述,我们提出了一种基于编辑 AMR 图的简单、可控且无需训练的方法。ABEX 实现了两全其美:通过从抽象表述扩展,它保留了文档的原始语义属性,如风格和含义,从而与原始标签和数据分布保持一致。同时,对抽象描述进行阐述的基本过程也促进了多样化的生成。我们在横跨 12 个数据集和 4 个低资源环境的 4 项 NLU 任务中演示了 ABEX 的有效性。ABEX 在质量上优于所有基线,提高了 0.04% - 38.8%。从质量上看,ABEX 在上下文和长度多样性方面优于所有先前的文献方法。

19.TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools

标题:TACT:利用信息提取工具推进复杂聚合推理

author:Avi Caciularu, Alon Jacovi, Eyal Ben-David, Sasha Goldshtein, Tal Schuster, Jonathan Herzig, Gal Elidan, Amir Globerson

publish:Website (https://tact-benchmark.github.io), Huggingface
(https://huggingface.co/datasets/google/TACT)

date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03618v1

摘要
大型语言模型(LLM)在需要汇总文本信息的查询中往往表现不佳。为了更好地评估这种情况并促进建模工作,我们引入了 TACT(通过表格进行文本和计算),这是一个精心设计的数据集,用于评估 LLM 使用复杂指令进行推理和计算的能力。TACT 包含一些具有挑战性的指令,要求将分散在一个或多个文本中的信息拼接起来,并对这些信息进行复杂的整合以生成答案。我们利用现有的文本及其相关表格数据集构建了这个数据集。对于每个表格,我们都会提出新的查询,并收集各自的答案。我们证明,所有当代 LLM 在该数据集上的表现都很糟糕,准确率低于 38/%。为了找出难点并彻底剖析问题,我们分析了模型在三个方面的性能:表生成、Pandas 命令生成和执行。意外的是,我们发现每个部分都对当前的 LLM 提出了巨大挑战。这些洞察力促使我们提出了一个重点突出的建模框架,我们称之为工具 IE。具体来说,我们建议为上述每个步骤添加 “工具”,并通过少量提示来实现每个工具。与现有的提示技术相比,这种方法有所改进,为增强模型在这些任务中的能力提供了一个很有前景的方向。

20.Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks

标题:评估中文开源大语言模型在信息提取任务中的性能

author:Yida Cai, Hao Sun, Hsiu-Yuan Huang, Yunfang Wu

date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.02079v1

摘要
信息提取(IE)在自然语言处理(NLP)中发挥着至关重要的作用,它从非结构化文本中提取结构化信息,从而促进与依赖结构化数据的各种现实世界应用的无缝集成。尽管其重要性不言而喻,但最近以英语 IE 任务为重点的实验揭示了大型语言模型(LLM)在实现最佳性能方面所面临的挑战,尤其是在命名实体识别(NER)等子任务中。在本文中,我们将对主流中文开源 LLM 在处理 IE 任务时的性能进行全面调查,特别是在模型未针对特定任务进行微调的零点条件下。此外,我们还介绍了几项小样本实验的结果,以进一步衡量这些模型的能力。此外,我们的研究还包括这些开源 LLM 与 ChatGPT(一种广受认可的语言模型)在 IE 性能方面的对比分析。通过细致的实验和分析,我们希望深入了解现有中文开源 LLM 在 NLP 信息提取领域的优势、局限性和潜在改进。

21.Improving Pseudo Labels with Global-Local Denoising Framework for Cross-lingual Named Entity Recognition

标题:利用全局-局部去噪框架改进伪标签,实现跨语言命名实体识别

author:Zhuojun Ding, Wei Wei, Xiaoye Qu, Dangyang Chen

publish:Accepted by IJCAI 2024

date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01213v1

摘要
跨语言命名实体识别(NER)的目的是仅利用已标记的源语言数据和未标记的目标语言数据来训练目标语言的 NER 模型。之前的方法要么是在翻译的源语言数据上执行标签投影,要么是使用源模型为目标语言数据分配伪标签,然后在这些伪标签数据上训练目标模型,以归纳到目标语言。然而,这些自动标注程序不可避免地会引入噪声标签,从而导致性能下降。在本文中,我们为跨语言 NER 提出了一个全局-局部去噪框架(GLoDe)。具体来说,GLoDe 引入了一种渐进式去噪策略,通过利用语义空间中的全局和局部分布信息来纠正错误的伪标签。经过改进的伪标签目标语言数据显著提高了模型的泛化能力。此外,以往的方法只考虑利用语言无关特征来改进模型,但我们认为目标语言的特定特征也很重要,绝不能忽视。为此,我们采用了一个简单的辅助任务来实现这一目标。在包含六种目标语言的两个基准数据集上的实验结果表明,我们提出的 GLoDe 明显优于目前最先进的方法。

  • 12
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值