自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(320)
  • 资源 (3)
  • 收藏
  • 关注

原创 自回归(AR)模型的功率谱估计(实现)

上一部分介绍了AR模型的理论知识,这一部分将介绍AR模型的各种估计方法。点击,快速查看理论知识。

2022-11-30 18:47:32 2847 1

原创 自回归(AR)模型的功率谱估计

假定随机信号 x(n)x(n)x(n) 是由白噪声 w(n)w(n)w(n) 激励某一确定系统的响应。如下图所示:随机信号 x(n)x(n)x(n)、白噪声 w(n)w(n)w(n)和系统的冲击响应 h(n)h(n)h(n) 之间的关系为:x(n)=h(n)∗w(n)=∑k=−∞+∞h(k)w(n−k)x(n)=h(n)*w(n)=\sum^{+\infin}_{k=-\infin}h(k)w(n-k)x(n)=h(n)∗w(n)=k=−∞∑+∞​h(k)w(n−k)其中,∗*∗ 为卷积操作。如果确定白噪

2022-11-25 23:24:42 1987

原创 池化(Pooling)

在图像处理中,由于图像中存在较多冗余信息,可用某一区域子块的统计信息(如最大值或均值等)来刻画该区域中所有像素点呈现的空间分布模式,以替代区域子块中所有像素点取值,这就是卷积神经网络中池化(pooling)操作。池化操作对卷积结果特征图进行约减,实现了下采样,同时保留了特征图中主要信息。比如:当识别一张图像是否是人脸时,我们需要知道人脸左边有一只眼睛,右边也有一只眼睛,而不需要知道眼睛的精确位置,这时候通过池化某一片区域的像素点来得到总体统计特征会显得很有用。

2022-10-24 09:56:21 8563

原创 卷积(Convolution)(三)

传统的卷积神经网络在计算机视觉领域已经取得了非常好的成绩,但是依然存在一个待改进的问题—计算量大。当卷积神经网络应用到实际工业场景时,模型的参数量和计算量都是十分重要的指标,较小的模型可以高效地进行分布式训练,减小模型更新开销,降低平台体积功耗存储和计算能力的限制,方便部署在移动端。因此,为了更好地实现这个需求,在卷积运算的基础上,学者们提出了更为高效的可分离卷积。

2022-10-24 09:43:11 1218

原创 卷积(Convolution)(二)

通常情况下,对图像进行卷积运算时,经过多层的卷积运算后,输出图像的尺寸会变得很小,即图像被约减。而对于某些特定的任务(比如:图像分割、GAN),我们需要将图像恢复到原来的尺寸再进行进一步的计算。这个恢复图像尺寸,实现图像由小分辨率到大分辨率映射的操作,叫做上采样(Upsample),如下图所示。上采样有多种方式,常见的包括:最近邻插值(Nearest neighbor interpolation)、双线性插值(Bi-Linear interpolation)等,但是这些上采样方法都是基于人们的先验经验来设计

2022-10-24 09:22:33 1851

原创 卷积(Convolution)(一)

在全连接网络中,一张图片上的所有像素点会被展开成一个1维向量输入网络,如 下图 所示,28 x 28的输入数据被展开成为784 x 1 的数据作为输入。这样往往会存在如下两个问题:1、输入数据的空间信息被丢失。 空间上相邻的像素点往往具有相似的RGB值,RGB的各个通道之间的数据通常密切相关,但是转化成1维向量时,这些信息被丢失。如 下图 所示,空间位置相邻的两个点A和B,转化成1维向量后并没有体现出他们之间的空间关联性。2、模型参数过多,容易发生过拟合。 由于每个像素点都要跟所有输出的神经元相连接。当图

2022-10-24 08:29:30 1507

原创 TinyBERT: Distilling BERT for Natural Language Understanding(2019-9-23)

预训练模型的提出,比如 BERT,显著的提升了很多自然语言处理任务的表现,它的强大是毫无疑问的。但是他们普遍存在参数过多、模型庞大、推理时间过长、计算昂贵等问题,因此很难落地到实际的产业应用中。TinyBERT是由华中科技大学和华为诺亚方舟实验室联合提出的一种针对transformer-based模型的知识蒸馏方法,以BERT为例对大型预训练模型进行研究。四层结构的TinyBERT4​在 GLUE benchmark 上可以达到BERTbase​。

2022-10-24 07:52:25 650

原创 DynaBERT: Dynamic BERT with Adaptive Width and Depth(2020-4-8)

预训练模型,如BERT,在自然语言处理任务中的强大之处是毫无疑问,但是由于模型参数量较多、模型过大等问题,在部署方面对设备的运算速度和内存大小都有着极高的要求。因此,面对实际产业应用时,比如将模型部署到手机上时,就需要对模型进行瘦身压缩。近年的模型压缩方式基本上都是将大型的BERT网络压缩到一个固定的小尺寸网络。而实际工作中,不同的任务对推理速度和精度的要求不同,有的任务可能需要四层的压缩网络而有的任务会需要六层的压缩网络。

2022-10-24 07:31:33 285

原创 模型压缩(Compress)

理论上来说,深度神经网络模型越深,非线性程度也就越大,相应的对现实问题的表达能力越强,但相应的代价是,训练成本和模型大小的增加。同时,在部署时,大模型预测速度较低且需要更好的硬件支持。但随着深度学习越来越多的参与到产业中,很多情况下,需要将模型在手机端、IoT端部署,这种部署环境受到能耗和设备体积的限制,端侧硬件的计算能力和存储能力相对较弱,突出的诉求主要体现在以下三点:首先是,比如像人脸闸机、人脸解锁手机等应用,对响应速度比较敏感,需要做到实时响应。其次是。

2022-10-24 07:11:26 622

原创 tf.GradientTape 函数

即计算某个计算相对于某些输入(通常是 tf.Variable)的梯度。TensorFlow 随后会该使用条带通过反向模式微分计算“记录的”计算的梯度。记录一些运算后,使用 GradientTape.gradient(target, sources) 计算某个目标(通常是损失)相对于某个源(通常是模型变量)的梯度。梯度带在关于源的传递方式上非常灵活,可以接受列表或字典的任何嵌套组合,并以相同的方式返回梯度结构。如果为True,则可以调用多次。在大多数情况下,需要计算相对于模型的可训练变量的梯度。

2022-10-19 10:14:03 1448

原创 归一化(Normalization)

归一化是一种数据处理方式,能将数据经过处理后限制在某个固定范围内。归一化存在两种形式,一种是在通常情况下,将数处理为 [0, 1] 之间的小数,其目的是为了在随后的数据处理过程中更便捷。例如,在图像处理中,就会将图像从 [0, 255] 归一化到 [0, 1]之间,这样既不会改变图像本身的信息储存,又可加速后续的网络处理。其他情况下,也可将数据处理到 [-1, 1] 之间,或其他的固定范围内。另一种是通过归一化将有量纲表达式变成无量纲表达式。那么什么是量纲,又为什么需要将有量纲转化为无量纲呢?

2022-10-17 16:57:51 30922

原创 模型调优(Turning)(二)

假设有一天热爱绘画的你决定去户外写生,你来到一片山坡上,极目远去,心旷神怡。头顶一片蔚蓝,脚踩一席草绿,远处山川连绵,眼前花草送香,暖阳含羞云后,轻风拂动衣襟,鸟啼虫鸣入耳,美景丹青共卷。你集中精神,拿起画笔将蓝天、白云、青草等等这些元素,按照所思所想纷纷绘入画板。在绘画的过程中,你会持续地关注你构思到画板上的元素(比如蓝天,白云),而不会太多关注那些其他的元素,比如风,虫鸣,阳光等等。即你的精神是聚焦在你关心的那些事物上,这其实就是注意力的体现,这种有意识的聚焦被称为聚焦式注意力(Focus Attent

2022-10-17 16:30:14 496

原创 模型调优(Tuning)(一)

学习率是训练神经网络的重要超参数之一,它代表在每一次迭代中梯度向损失函数最优解移动的步长,通常用 η 表示。它的大小决定网络学习速度的快慢。在网络训练过程中,模型通过样本数据给出预测值,计算代价函数并通过反向传播来调整参数。重复上述过程,使得模型参数逐步趋于最优解从而获得最优模型。在这个过程中,学习率负责控制每一步参数更新的步长。合适的学习率可以使代价函数以合适的速度收敛到最小值。根据梯度更新公式:θ=θ−η∂∂θJ(θ)\theta = \theta - \eta\displaystyle\frac{\p

2022-10-17 12:23:34 950

原创 激活函数(Activation)

激活函数是人工神经网络的一个极其重要的特征;激活函数决定一个神经元是否应该被激活,激活代表神经元接收的信息与给定的信息有关;激活函数对输入信息进行非线性变换,然后将变换后的输出信息作为输入信息传给下一层神经元。

2022-10-17 09:22:30 2043

原创 损失函数(Loss)

如果我们定义了一个机器学习模型,比如一个三层的神经网络,那么就需要使得这个模型能够尽可能拟合所提供的训练数据。但是我们如何是否足够呢?那就需要使用相应的指标来评价它的拟合程度,所使用到的函数就称为(Loss Function),当损失函数值下降,我们就认为模型在拟合的路上又前进了一步。最终模型对训练数据集拟合的最好的情况是在损失函数值最小的时候,在指定数据集上时,为损失函数的平均值最小的时候。

2022-10-17 07:51:02 2128

原创 优化器(Optimizer)(二)

为了抑制SGD的震荡,SGD-M认为梯度下降过程可以加入惯性。可以简单理解为:当我们将一个小球从山上滚下来时,没有阻力的话,它的动量会越来越大,但是如果遇到了阻力,速度就会变小。SGD-M全称是SGD with momentum,在SGD基础上引入了一阶动量:vt=γvt−1+η∇J(θ)v_t=\gamma v_{t-1}+\eta \nabla J(\theta)vt​=γvt−1​+η∇J(θ)SGD-M参数更新公式如下,其中 ηηη 是学习率,∇J(θ)∇J(θ)∇J(θ) 是当前参数的梯度:θ=θ

2022-10-16 18:54:01 1236

原创 优化器(Optimizer)(一)

如果我们定义了一个机器学习模型,比如一个三层的神经网络,那么就需要使得这个模型能够尽可能拟合所提供的训练数据。但是我们如何是否足够呢?那就需要使用相应的指标来评价它的拟合程度,所使用到的函数就称为(Loss Function),当损失函数值下降,我们就认为模型在拟合的路上又前进了一步。最终模型对训练数据集拟合的最好的情况是在损失函数值最小的时候,在指定数据集上时,为损失函数的平均值最小的时候。

2022-10-16 15:37:17 1867

原创 评估指标(Metric)(四)

BLEU算法能够比较好地计算生成序列x​​​的字词是否在参考序列中出现过,但是其并没有关注参考序列中的字词是否在生成序列出现过。中的 N ​元组合词是否在参考序列中出现,其计算结果更偏好短的生成序列,即生成序列。​​构造不同长度的 N 元组合词,这样便可以获得不同长度组合词的精度,比如。BLEU算法通过计算不同长度的N​​​​​​元组合的精度。前边反复提到一个概念–N​​​ 元组合词,我们可以根据生成序列。​​​​​,以及相应的译文参考序列。​​​​​​​​​,且。​为 N​ 元组合词。

2022-10-16 10:42:26 539

原创 评估指标(Metric)(三)

中文翻译为,是信息论中的一个概念,其可以用来衡量一个随机变量的不确定性,也可以用来衡量模型训练的好坏程度。通常情况下,一个随机变量的Perplexity数值越高,代表其不确定性也越高;一个模型推理时的Perplexity数值越高,代表模型表现越差,反之亦然。

2022-10-16 10:23:37 622

原创 评估指标(Metric)(二)

把生成的图片 x 输入Inception V3模型中,将输出 1000 维(ImageNet有1000类)的向量 y ,向量每个维度的值表示图片属于某类的概率。首先将Inception Net-V3模型的输出层替换为最后一个池化层的激活函数的输出值,把生成器生成的图片和真实图片送到模型中,得到2048个激活特征。:如果一个模型能生成足够多样的图片,那么它生成的图片在各个类别中的分布应该是平均的,假设生成了 10000 张图片,那么最理想的情况是,1000 类中每类生成了 10 张。,以及真实图像的均值。

2022-10-16 09:47:40 747

原创 评估指标(Metric)(一)

也称为真阳性率)是指实际为阳性的样本中,判断为阳性的比例(例如真正有生病的人中,被医院判断为有生病者的比例),计算方式是真阳性除以真阳性+假阴性(实际为阳性,但判断为阴性)的比值(能将实际患病的病例正确地判断为患病的能力,即患者被判为阳性的概率)。,也称为真阴性率)是指实际为阴性的样本中,判断为阴性的比例(例如真正未生病的人中,被医院判断为未生病者的比例),计算方式是真阴性除以真阴性+假阳性(实际为阴性,但判断为阳性)的比值(能正确判断实际未患病的病例的能力,即试验结果为阴性的比例)。

2022-10-16 09:17:39 1231

原创 向量距离与相似度(Distance and Similarity)

假设当前有两个n维向量x和y,可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,显然两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。

2022-10-16 08:29:44 727

原创 CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation(2021-3-11)

管道化的NLP系统大部分被端到端的神经模型所取代,然而,几乎所有常用的模型都需要一个显示的分词步骤。尽管最近基于数据衍生的子词词典的分词器比手工设计的分词器要稳固,但是这些分词器并不适合所有的语言,而且使用固定的词汇会限制模型的能力。基于这些问题,提出了,神经编码器,没有显式的进行分词和也没有词汇表,在与训练中直接处理字符序列以及有选择的使用子词作为软感应偏置(soft inductive bias)。

2022-10-15 22:55:28 262

原创 BORT:Optimal Subarchitecture Extraction For BERT(2020-10-20)

通过应用最新的,提取了BERT体系结构参数的最优子集。这个最优子集(称为BORT)比原来的模型小,其中网络结构大小为原来BERT-large 结构大小的15%,有效大小(没有计算嵌入层)为5.5%。BORT预训练了288个GPU小时,这是预训练性能最高的BERT参数化结构变体RoBERTa-large所需时间的1.2% ,是在相同硬件上训练BERT-large所需GPU小时的世界纪录的33%左右。

2022-10-15 13:33:15 416

原创 MPNet: Masked and Permuted Pre-training for Language Understanding(2020-4-20)

BERT采用掩模语言建模(MLM)进行预训练,是最成功的预训练模型之一。由于BERT忽略了预测的 token 之间的依赖关系,XLNet引入了排列语言建模(PLM)进行预训练,以解决这个问题。然而,XLNet并没有利用一个句子的全部位置信息,因此在预训练和微调之间存在位置差异。MPNet,一种新的预训练方法,既继承了BERT和XLNet的优点,又避免了它们的局限性。

2022-10-14 19:17:15 726

原创 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices(2020-4-6)

近年来,自然语言处理(NLP)通过使用具有数亿个参数的巨大预训练模型取得了巨大的成功。然而,这些模型受到沉重的模型尺寸和高延迟的影响,因此无法部署到资源有限的移动设备上。因此这里提出了MobileBERT来压缩和加速流行的BERT模型。与原始的BERT一样,MobileBERT是任务不可知论的,也就是说,它可以通过简单的微调通用地应用于各种下游NLP任务。基本上,MobileBERT是BERTLARGE​的精简版,同时配备了瓶颈结构和精心设计的在自注意和前馈网络之间的平衡。

2022-10-14 13:26:11 402

原创 SqueezeBERT: What can computer vision teach NLP about efficient neural networks?(2020-6-19)

人类每天要读写数千亿条信息。此外,由于大型数据集、大型计算系统和更好的神经网络模型的可用性,自然语言处理(NLP)技术在理解、校对和组织这些消息方面取得了重大进展。因此,在无数的应用程序中部署NLP以帮助网络用户、社交网络和企业是一个重要的机会。特别的,智能手机和其他移动设备是大规模部署NLP模型的关键平台。然而,如今的高精度NLP神经网络模型,如BERT和RoBERTa,计算成本极高,在Pixel 3智能手机上,基于BERT的文本片段分类需要1.7秒。在这项工作中,观察到。

2022-10-14 09:13:57 341

原创 RoFormer: Enhanced Transformer with Rotary Position Embedding(2021-4-20)

位置编码最近的Transformer模型中显的非常有效,它为位于序列不同位置的元素之间的依赖关系建模提供了有价值的监督。通过研究了不同集成位置编码信息的方法在基于transformer语言模型的学习过程的作用,提出了一种新的方法–旋转位置编码(Rotary Position Embedding,RoPE)。具体而言,RoPE将绝对位置编码在一个旋转矩阵中,与此同时,在self-attention公式中包含了显式的相对位置依赖。尤其是,RoPE可以让有价值的属性包含在相对位置编码中,比如序列长度的灵活性、随着

2022-10-13 22:17:15 1626 1

原创 REALM: Retrieval-Augmented Language Model Pre-Training(2020-2-10)

预训练语言模型能够捕捉非常多的知识,对于NLP任务特别是QA任务来说非常重要。然而,知识被隐式的存储在神经网络的参数中,需要更大的网络来覆盖更多的因素。为了以一个模块化或者可翻译的方式来捕捉知识,使用了一个延迟知识检索的预训练增强语言模型在预训练、微调以及推断期间允许模型在大的语料库中(比如Wikipedia)检索文档。首先,先展示如何以无监督方式训练一个知识检索器,使用掩码语言模型(MLM)来作为学习信号,然后通过有几百万文档的训练步骤进行后向传播。

2022-10-13 12:06:01 917 1

原创 NEZHA: Neural Contextualized Representation for Chinese Language Understanding(2019-8-31)

NEZHA整体上是基于BERT的改进。在NEZHA中使用的是函数式相对位置编码,而在原始的Transformer和BERT中每个词使用的是绝对位置编码。位置编码信息直接加到词嵌入作为Transformer的输入。NEZHA使用函数式相对位置编码,通过预定义函数的方式在自注意力层编码相对位置。实验结果表明,该方法是一种有效的位置编码方案,并在实验中取得了一致的效果。此外,NEZHA在训练过程中使用了三种已被证明是有效的预训练BERT技术,即全词覆盖,混合精度训练和LAMB优化。

2022-10-13 07:38:55 205

原创 I-BERT: Integer-only BERT Quantization(2021-1-5)

基于Transformer的模型,例如BERT、RoBERTa,在许多的自然语言处理任务中获得最优的结果。由于内存使用、推断延迟、能源损耗,以至于无法有效率的在边缘甚至数据中心进行推断。尽管量化是一个可行的解决方案,但是之前的一些基于Transformer的量化工作在推理阶段还是使用了浮点运算,不能有效地利用整数逻辑单元,比如最近的Turing Tensor Cores,或者传统的仅支持整型的ARM处理器。

2022-10-12 22:21:16 740

原创 GPT 3.0:Language Models are Few-Shot Learners(2020-5-28)

迁移学习是一种在自然语言处理中强大的技术,模型首先要针对数据丰富的任务进行预训练,然后再针对下游任务进行微调。,并在数十种语言理解任务研究比较了预训练目标,架构,未标记的数据集,迁移方法和其他因素。结合实验所得以及 C4 数据集,在许多基准上获得了最新的结果,这些基准涵盖了摘要,问题回答,文本分类等等。GPT-3是具有1750亿参数的自回归语言模型,这比以前的任何非稀疏语言模型大10倍,并在少样本学习的设置下测试其性能。

2022-10-12 12:52:58 1187

原创 GPT 2.0:Language Models are Unsupervised Multitask Learners(2019-2-20)

自然语言处理任务(例如问题解答,机器翻译,阅读理解和总结)典型方法是通过在任务相关的数据集上进行监督学习。通过实验证明,语言模型在没有任何明确监督的情况下开始学习这些任务,训练数据集为数百万个网页的新数据集WebText。当以文档加问题为条件时,语言模型生成的答案在CoQA数据集上F1达到55-在不使用127,000多个训练数据的情况下,可以匹配或超过4个基准系统其中3个的性能。语言模型的能力对零样本学习任务迁移成功至关重要,并且提高其性能可以对数线性方式跨越任务。

2022-10-12 10:47:02 284

原创 Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing(2020-6-5)

Self-Attention 在机器学习和 NLP 领域取得了不错的进展,而且更大的模型、更长的预训练时间效果会更好。但是预训练太昂贵,即便只是精调,比起传统的 NLP 模型依然需要大量资源。这就限制了在更多领域的应用。。而另外一种思路是设计新的架构,该架构不仅具备低 资源/表现 比,同时至少在某些领域能像 Transformer 一样具有伸缩性(即如果增大模型,效果会相应变好)。

2022-10-12 08:55:58 136

原创 ConvBERT: Improving BERT with Span-based Dynamic Convolution(2020-8-6)

像BERT及其变种这样的经过预训练的语言模型,最近在各种自然语言理解任务中取得了令人印象深刻的性能。但是,BERT严重依赖于全局自注意力模块,因此会需要较大的内存占用和计算成本。尽管其所有attention head作用于整个输入序列,以从全局角度生成attention map,但我们观察到有些head只需要学习本地依赖关系,这意味着存在计算冗余。因此,我们提出了一种新颖的基于跨度的动态卷积,以取代这些self-attention head来直接对局部依赖性进行建模。

2022-10-11 21:27:16 343

原创 ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding(2019-7-29)

通常,模型的预训练通常基于单词和句子的共现来训练模型。实际上,除同现外,还有其他词汇,句法和语义信息值得在训练语料库中进行检查。例如,诸如个人名称,位置名称和组织名称之类的命名实体可能包含概念性信息。诸如句子顺序和句子接近度之类的信息使模型能够学习结构感知表示。文档级别的语义相似性或句子之间的语篇关系使模型可以学习语义感知表示。

2022-10-11 17:42:56 373

原创 ERNIE(THU-ERNIE): Enhanced Language Representation with Informative Entities(2019-5-17)

当前的预训练模型(比如BERT、GPT等)往往在大规模的语料上进行预训练,学习丰富的语言知识,然后在下游的特定任务上进行微调。但这些模型基本都没有使用知识图谱(KG)这种结构化的知识,而KG本身能提供大量准确的知识信息,通过向预训练语言模型中引入这些外部知识可以帮助模型理解语言知识。基于这样的考虑,作者提出了一种融合知识图谱的语言模型ERNIE,由于该模型是由清华大学提供的,为区别百度的ERNIE,故本文后续将此模型标记为THU-ERNIE。对于第一个问题,THU-ERNIE使用。

2022-10-11 16:43:34 238

原创 ERNIE-Doc: A Retrospective Long-Document Modeling Transformer(2020-12-31)

经典的Transformer在处理数据时,会将文本数据按照固定长度进行截断,这个看起来比较”武断”的操作会造成上下文碎片化以及无法建模更长的序列依赖关系。基于此项考虑,ERNIE-Doc提出了一种文档层级的预训练语言模型方法:ERNIE-Doc在训练某一个Segment时,允许该segment能够获得整个Doc的信息。S1​,S2​,S3​,在编码segment S2时,经典的Transformer依赖的只是S2​P(y∣S2​)

2022-10-11 14:32:34 370

原创 ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural ...(2020-10-23)

在经典预训练模型BERT中,主要是通过Masked Language Modeling(MLM)预训练任务学习语言知识。在BERT中MLM会随机Masking一些位置的token,然后让模型去预测这些token。

2022-10-11 13:45:05 332

原创 ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and ...(2021-7-5)

为了解决单一自回归框架带来的问题,并探索大规模参数的知识增强预训练模型的性能,我们提出了一个名为ERNIE 3.0的统一框架,通过融合自回归网络和自编码网络,在由纯文本和大规模知识图谱组成的4TB语料库上训练大规模知识增强模型。提出的ERNIE 3.0可以通过zero-shot学习、few-shot学习或微调来处理自然语言理解任务和自然语言生成任务。此外,提议的框架支持在任何时候引入各种定制任务。这些任务共享相同的编码网络,并通过多任务学习进行训练。

2022-10-11 10:49:38 429

GLUE数据集GLUE数据集

GLUE数据集GLUE数据集

2022-05-23

glue基准任务用的数据集

glue基准任务用的数据集

2022-05-12

循环神经网络测试用数据集

循环神经网络测试用数据集

2022-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除