题目
Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目

论文地址:https://arxiv.org/abs/2401.04507
项目地址:从https://github.com/neukg/TechGPT-2.0
摘要
大型语言模型在不同的自然语言处理任务中表现出强大的性能。本报告介绍了TechGPT-2.0项目,该项目旨在增强大型语言模型在知识图谱构建任务中的能力,包括NLP应用中的命名实体识别(NER)和关系三重提取(RTE)任务。此外,它还可以作为中国开源模型社区研究的法学硕士。我们提供了两个7B大型语言模型权重和一个专门用于处理冗长文本的QLoRA权重。值得注意的是,TechGPT-2.0是在华为Ascend服务器上进行培训的。它继承了TechGPT-1.0的所有功能,展示了强大的文本处理能力,特别是在医学和法律领域。此外,我们向模型引入了新的功能,使其能够处理不同领域中的文本,例如地理区域、交通、组织、文学作品、生物学、自然科学、天文物体和建筑。这些改进也加强了模型在处理幻觉、无法回答的问题和冗长文本方面的熟练程度。本报告全面、详细地介绍了华为Ascend服务器的全调优过程,包括Ascend服务器调试、指令调优数据处理、模型训练等方面的经验。
引言
目前关于大型语言模型(llm)和知识图(KGs)之间关系的讨论非常活跃。这两者是否可以互补,LLM和LLM如何有效地整合,以及未来的研究是应该专注于KG辅助LLM还是相反的问题仍然没有答案。为了推进知识图与大模型融合的研究,我们启动了TechGPT-1.0和TechGPT-2.0项目。这些项目包括发布三个7b级指令微调模型和一个为长文本量身定制的QLoRA模型。在TechGPT-1.0和TechGPT-2.0项目中开发的广泛模型主要集中在与构建知识图相关的各种子任务上,包括NER和RTE等任务。此外,我们将提供对数据收集和处理的全面见解,分享调试Ascend服务器的经验,并描述我们的模型训练程序。这些信息旨在为寻求在Ascend服务器上训练大规模语言模型的研究人员提供有价值的参考和支持。
具体来说,我们研究小组中经验丰富的研究人员策划了一批知识图,为NER和RTE等子任务构建数据集。随后修改这些数据集以与指令保持一致并微调数据格式。值得注意的是,用于构建子任务数据集的知识图包含开源数据收集自公共数据集,以及我们课题组以前项目中积累的研究数据。这些数据由我们小组的研究人员进行整理和手工注释。
为了确保在整个微调过程中大型语言模型的持续通用能力,我们坚持从先前的实验中得出的结论。编译了大量的通用指令微调数据,并以适当的比例将其与知识图谱领域数据合并,产生了大约400万个指令微调数据实例。此外,在Ascend服务器上的模型训练过程与传统NVIDIA显卡之间存在显著差异。我们的目的是分享在Ascend服务器上与模型训练相关的独特挑战和实践的见解,为研究人员在未来考虑在这个平台上进行探索提供有价值的指导。
由于我们服务器资源的限制,没有对TechGPT-1.0和TechGPT2.0项目中的模型进行详细的实验。因此,本报告仅提供了简单实验结果的简明摘要。为了更深入地探索模型性能,我们鼓励您访问开源社区,如HuggingFace、ModelScope和WiseModel,以获取下载和第一手经验。或者,您可以在我们的研究团队分享的经验页面上探索详细的经验。
随着自然语言处理(NLP)领域的快速发展,大型语言模型(llm)近年来受到了广泛的关注。语言建模作为一种处理自然语言文本的主要方法,在过去的二十年中得到了广泛的研究,用于语言理解和生成。它已经从传统的统计语言模型发展到神经语言模型,最近,它已经获得了对预训练语言模型的大量关注。预训练的概念起源于计算机视觉(CV)任务中的迁移学习。当应用于NLP时,预训练技术涉及在大规模语料库上训练Transformer模型,从而能够捕获对下游任务有益的丰富知识,例如长期依赖关系和层次关系。此外,预训练在NLP领域的显著优势在于,训练数据可以来自任何未标记的文本语料库,为预训练过程提供了几乎无限的训练数据。早期的预训练方法是静态的,如神经网络语言模型(Neural Network Language Models, NNLM)和Word2Vec。然而,静态方法难以适应不同的语义上下文。因此,引入了动态预训练技术,如BERT和XLNet。随着硬件能力的快速发展,研究人员发现,增加预训练语言模型的参数和训练数据规模可以显著提高性能。
GPT系列代表了LLM的一个范例,经历了多个版本的迭代,并显示出重要的发展轨迹。从最初使用GPT-1和GPT-2进行的尝试,到GPT-3在模型能力上取得了长足的飞跃,再到GPT-4的进一步发展,支持多模式输入,综合能力得到增强。近年来,这些系列的发展不仅在自然语言处理任务中表现出显著的性能改进,而且对LLM的研究也做出了重大贡献。特别是ChatGPT的出现,进一步证实了大规模语言模型的吸引力。这些大规模的预训练语言模型被称为大型语言模型,如LLaMA (65B)、GPT-3 (175B)、BLOOM (176B)、PaLM (540B)。
从2023年开始,来自业界和研究机构的各种大型语言模型层出不穷。值得一提的是,中国大型语言模型也在过去一年雨后春笋般涌现。其中,ChatGLM是中文领域最有效的开源基础模型之一,针对中文问答和对话进行了优化。在短短一年内,该模型的三个版本已经训练完成。ChatGLM3在保留前两代模型对话流畅