GOLLIE : ANNOTATION GUIDELINES IMPROVE ZERO-SHOT INFORMATION-EXTRACTION-CSDN博客

本文链接：https://blog.csdn.net/weixin_43961909/article/details/140576836

文章目录

- 题目
- 摘要
- 引言
- 方法
- 实验
- 消融研究

题目

Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目

论文地址：https://arxiv.org/abs/2310.03668

摘要

大型语言模型 (LLM) 与指令调优相结合，在泛化到未见过的任务时取得了重大进展。然而，它们在信息提取（IE）方面不太成功，落后于特定任务模型。通常，IE 任务的特点是复杂的注释指南，这些指南描述任务并向人类提供示例。以前利用此类信息的尝试都失败了，即使是最大的模型也是如此，因为它们无法遵循开箱即用的指南。在本文中，我们提出了 GoLLIE（IE 大型语言模型指南），该模型能够通过微调以符合注释指南，从而改进未见过的 IE 任务的零样本结果。综合评估经验表明，GoLLIE 能够泛化并遵循看不见的准则，优于之前零样本信息提取的尝试。消融研究表明，详细的指导方针是获得良好结果的关键。代码、数据和模型将公开。

引言

信息提取（IE）的任务非常具有挑战性。这一挑战在详细的指南中显而易见，其中包含精细的定义和大量的例外情况，人类注释者必须遵循这些指南来执行任务。当前 SoTA 模型的性能在很大程度上取决于人工注释数据的数量，因为该模型从这些示例中学习指导。然而，在新的注释模式中进行测试时，这种性能会显着下降。在 IE 中获得良好结果的常见做法是从头开始在每个新域和模式中手动注释，因为几乎不存在跨应用程序域的传输。不幸的是，这在财务成本和人力方面都是不可行的。

大型语言模型 (LLM)的最新进展使得能够泛化到未见过的任务的模型的开发成为可能。因此，当前的零样本 IE 系统利用LLM中编码的知识来注释新示例。作为预训练过程的副产品，模型现在可以强有力地代表个人或组织。因此，可以提示他们从文本中提取对这些类别的提及。然而，这有一个明显的限制：并非每个注释模式*都以相同的方式定义“人”（或任何其他标签）。例如，ACE 将代词注释为人称，而 CoNLL 则不然。IE 任务需要的信息不仅仅是标签名称，它们还需要注释指南。

目前的LLM已经接受过遵循说明的培训，但他们未能遵循开箱即用的注释指南。例如，下图显示了特定领域的零样本命名实体识别的结果。当提示指导方针时，gpt-3.5-turbo 的结果很低，在音乐或政治领域的 F1 分数约为 20。构建一个能够实现高性能零样本信息提取的系统，减少对昂贵的人工注释的依赖，仍然是一个开放的挑战。在这项工作中，我们提出了 GoLLIE（遵循指南的 IE 大型语言模型），这是一个经过微调的LLM，旨在学习如何遵守一小部分众所周知的 IE 任务的指南。综合零样本评估经验表明，GoLLIE 在零样本信息提取方面优于 SoTA。
在这里插入图片描述

大型语言模型 (LLM) 在开发可泛化到未见过的任务的系统方面取得了重大进展。使用大量互联网数据训练了LLM，发现给定自然语言任务描述的预训练模型可以在没有明确监督的情况下执行问答、机器翻译或总结等任务。基于这一发现，指令调优（通常称为多任务微调）已成为实现未知任务泛化的主要方法。此过程涉及在大量未标记数据上预训练模型，然后针对各种任务集合对其进行微调，这些任务被表述为文本到文本问题。向模型提供自然语言指令或提示，以识别其应解决的任务。研究已经证明，增加语言模型的参数数量，再加上指令调优数据集的大小和质量的改进，可以增强泛化能力。LLM在各种具有挑战性的任务中表现出了令人印象深刻的零样本泛化能力，包括编码、常识推理和医学应用等。

在信息提取（IE）领域，最近的共享任务表明，XLM-RoBERTa和 mDEBERTA等仅编码器的语言模型仍然存在最有效的模型。利用 LLM 和自然语言指令进行 IE 的尝试不太成功，因为它们的性能落后于仅编码器模型。在十亿参数 LLM 之前，间接监督方法通过利用从文本蕴涵和问答等任务中学到的知识来改进零样本 IE。提出了一种实体类型方法，该