ERNIE 3.0知识增强大模型

文章介绍了ERNIE3.0,一种结合自回归网络和自动编码网络的模型,通过在大规模文本和知识图谱数据上预训练,提升了自然语言理解和生成任务的表现。ERNIE3.0创新性地设计了一个连续的多任务统一预训练框架,通过预训练任务捕捉词汇、句法和语义信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、Introduction

  传统的GPT和BERT的缺陷:在训练的时候并没有引入先验的知识,所以说训练出来的model尽管表现很好,这是由训练量巨大造福的。但也会在自然语言理解任务上表现weak。ERNIE是在一个由纯文本和一个大规模知识图组成的4TB语料库上,用100亿个参数训练该模型。

  We trained the model with 10 billion parameters on a 4TB corpus consisting of plain texts and a large-scale knowledge graph.

综上,ERNIE的贡献如下:

​   We propose a unified framework ERNIE 3.0, which combines auto-regressive network and auto-encoding

network so that the trained model can handle both natural language understanding and generation tasks through

zero-shot learning, few-shot learning or fine-tuning.

​  We pre-train large-scale knowledge enhanced models with 10 billion parameters and evaluate them with a series

of experiments on both natural language understanding and natural language generation tasks. Experimental

results show that ERNIE 3.0 consistently outperforms the state-of-the art models on 54 benchmarks by a large

margin and achieves the first place on the SuperGLUE benchmark.

2 、ERNIE 3.0网络结构

在这里插入图片描述

  In order to explore the effectiveness of knowledge enhanced large-scale pre-trained model, we propose the ERNIE 3.0 framework to pre-train model on massive unsupervised corpus including plain texts and knowledge graph. Furthermore, we employ various types of pre-

  ​	training tasks to enable the model to learn the different levels of knowledge consisting of valuable lexical, syntactic 3and semantic 

  ​	information more effectively, in which the pre-training tasks spread three task paradigms, that is natural language understanding, natural 

  ​	language generation and knowledge extraction. Therefore, ERNIE 3.0 innovatively designs a **Continual Multi-Paradigms Unified Pre-**

  ​	**training Framework** to enable the collaborative pre-training among multi-task paradigms. 

  Ernie3.0框架,试图对包括大量纯文本和知识图谱在内的大规模无监督语料进行预训练,此外,为了是model学到更多的有价值的词汇、句法和语义信息组成的不同层次的知识,其中预训练任务分布在三个任务范式中,即自然语言理解、自然语言生成和知识提取,因此,ERNIE 3.0创新性地设计了一个连续的多范式统一预训练框架,以实现多任务范式间的协同预训练。

2.1、模型结构

  作者认为,自然语言处理的不同任务范式对相同的底层抽象特征的依赖是一致的,如词汇信息和句法信息,但对顶层具体特征的要求是不一致的,其中自然语言理解任务有学习语义连贯性的要求,而自然语言生成任务则期望进一步的语境信息。因此,受多任务学习的经典模型架构的启发,即低层是所有任务共享的,而顶层是特定任务的。ERNIE 3.0,使不同的任务范式能够共享在一个共享网络中学习的底层抽象特征,并分别利用在他们自己的特定任务网络中学习的特定任务顶层具体特征。ERNIE 3.0利用了ERNIE 2.0中引入的持续的多任务学习框架[33]。至于不同种类的下游任务的应用,我们将首先用预训练好的共享网络和相应的特定任务网络的参数组合来初始化ERNIE 3.0,用于不同的任务范式,然后利用特定任务的数据执行相应的后续程序。

  ERNIE 3.0不仅使模型能够区分不同任务范式的特定语义信息,而且缓解了大规模预训练模型在有限的时间和硬件资源下难以实现的困境,其中ERNIE 3.0允许模型只在微调阶段更新特定任务表示网络的参数。具体来说,ERNIE 3.0采用了一个通用表示模块和两个特定任务表示模块的协作架构,即自然语言理解(NLU)特定表示模块自然语言生成(NLG)特定表示模块。如上图。

Universal Representation Module:论文使用了一个多层Transformer-XL网络,该网络除了引入了辅助递归记忆模块,以帮助建模较长的文本外和transformer基本一致。为了更好地获取各种语义信息,ERNIE 3.0设置了更大尺寸的通用表示模块。该记忆模块仅对控制注意力掩码矩阵的自然语言生成任务有效。具体设置是48层, 4096 隐藏单元和64注意力头。

Task-specific Representation Modules:针对该模型,同样使用了多层的Transformer-XL网络。这里使用的是一个基础模型尺寸(base),因为论文认为:一是基础网络比多层感知机和浅层transformer网络具有更强的语义信息捕获能力;二是具有基本模型规模的任务特定网络使ERNIE 3.0能够在不显著增加大规模模型参数的情况下区分不同任务范式之间的顶层语义信息;并且,这也会让模型在fine-turn的时候减轻很大的压力。这里NLU是一个双向建模网络,而NLG是一个单向建模网络。具体是12层, 768 隐藏单元和12注意力头。

2.2、预训练任务

2.2.1、单词感知的预训练任务:

  ERNIE 1.0[7]提出了一个有效的策略,通过知识集成来加强表示,即知识集成mask语言模型任务。它引入了短语mask和命名实体mask,预测整个被mask的短语和命名实体,以帮助模型学习本地语境和全球语境中的依赖信息。

文本语言任务使用传统语言模型(GPT)作为预训练任务。

2.2.2、结构感知的预训练任务:

句子重排序任务训练模型通过重组排列好的片段来学习句子之间的关系,具体来说,会先随机拆分成1-m个段,再打乱顺序,让模型还原。就变成了一个分类问题,对于每一种分法,有n!种类。

句子距离任务可以看作是一个三分类任务,三个分类分别是相邻,不相邻但是在同一个文档当中和不在同一个文档当中。

2.2.3、具有知识感知的预训练任务:

  为了将知识整合到一个预训练的语言模型中,论文引入了通用知识-文本预测(UKTP:universal knowledge-text prediction)任务。给定一对知识图谱中的三元组和百科全书中相应的句子,论文随机屏蔽三元组中的关系或句子中的单词,进行还原任务。为了预测三元组中的关系,该模型需要检测头部实体和尾部实体的提及情况,并确定它们在相应句子中的语义关系。获得对应关系的过程是这样的:给定百科全书中的一篇文档,首先在知识图中找到提及头部实体或尾部实体为文档标题的候选三元组,然后从候选三元组中选择提及头部实体和尾部实体在文档中相同句子的候选三元组。

在这里插入图片描述

  ERNIE 3.0通过知识mask语言模型(单词感知)来训练NLU网络,以提高捕获词汇信息的能力;通过训练句子重排任务和句子距离(结构感知)辨别任务来加强捕获句法信息的能力;最后通过通用知识-文本预测(知识感知)任务来优化模型,以提高知识记忆和推理能力。同时,ERNIE 3.0用文档语言模型任务训练NLG网络,以实现各种生成风格。

<think>好的,我现在需要回答用户关于ERNIE模型是否属于大语言模型的问题,并进行比较和特征分析。首先,我需要确认ERNIE模型的基本信息。ERNIE是百度提出的自然语言处理模型,全称是Enhanced Representation through kNowledge IntEgration,它通过融入知识来增强语义表示。 接下来,判断它是否属于大语言模型(LLM)。大语言模型通常指参数量巨大、训练数据广泛,能够处理多种任务的模型,如GPT-3、BERT等。ERNIE的早期版本如ERNIE 1.0主要优化了Masked Language Model,通过引入实体和短语级别的掩码来提升效果。这时候的模型规模可能还不算大。但后来百度推出了ERNIE 3.0,参数量达到了百亿级别,支持多任务学习,明显符合大语言模型的特征。所以需要区分不同版本的ERNIE。 然后是比较分析。ERNIE的特点在于知识增强,通过知识图谱整合实体信息,这和BERT的随机掩码不同。此外,ERNIE 3.0结合了自回归和自编码结构,支持生成和理解任务,而像GPT主要基于自回归。在应用场景上,ERNIE在中文NLP任务中表现较好,尤其是在实体相关的任务上。 需要引用提供的参考资料。引用[1]讨论了大语言模型的综述,可以用来支持ERNIE作为LLM的分类。引用[3]提到Hete系列模型利用元路径和知识融合,这和ERNIE知识增强有相似之处,可以对比说明ERNIE的技术特点。 最后,生成相关问题时要围绕ERNIE的特性、与其他模型的比较、应用场景等方面,确保问题有针对性,帮助用户深入理解。</think>ERNIE(Enhanced Representation through kNowledge IntEgration)是由百度研发的知识增强型预训练语言模型,属于大语言模型(Large Language Models, LLMs)范畴。以下从技术特征和对比分析角度进行说明: ### 1. ERNIE与大语言模型的共性 - **参数量级**:ERNIE 3.0版本参数量达百亿级别,满足大语言模型对模型规模的定义[^1]。 - **多任务能力**:支持文本生成、语义理解、问答等多种任务,符合LLMs通用性特征。 - **预训练技术**:采用两阶段训练(预训练+微调),与BERT、GPT等模型技术路线一致。 ### 2. ERNIE的差异化特征 - **知识增强机制** 通过引入知识图谱(如实体、关系、属性)优化语义表示,例如: - **实体级掩码**:相比BERT的随机词掩码,ERNIE对实体(如"北京")或短语进行整体掩码,强化知识关联[^3]。 - **多源数据融合**:整合结构化知识与非结构化文本,提升推理能力。 - **混合架构设计** ERNIE 3.0结合了自编码(AutoEncoder)和自回归(AutoRegressive)结构: ```python # 简化的混合架构示意 class ERNIE_3(nn.Module): def __init__(self): self.encoder = TransformerEncoder() # 理解任务 self.decoder = TransformerDecoder() # 生成任务 ``` - **中文场景优化** 在中文分词、成语理解等任务上表现优于同等规模的英文模型,例如通过汉字笔画特征编码增强字形语义捕捉。 ### 3. 与典型LLMs的对比 | 特征 | ERNIE | BERT | GPT-3 | |--------------------|----------------------|--------------------|--------------------| | 核心创新点 | 知识增强 | 双向注意力 | 零样本学习 | | 掩码策略 | 实体/短语级 | 词级别 | 自回归生成 | | 典型应用场景 | 知识密集型问答 | 文本分类 | 开放域生成 | | 多模态扩展 | ERNIE-ViL | VideoBERT | DALL·E | ### 4. 应用场景示例 - **金融领域**:通过实体识别精准提取财报关键数据[^3] - **教育领域**:基于知识图谱的自动解题系统 - **搜索引擎**:长尾查询的语义理解优化
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值