CHIPbenmark先进模型

打榜用的比较先进的dnn模型

ZEN2.0

代码:https://github.com/sinovation/ZEN2
ZEN、ZEN2.0
ZEN1.0:
摘自:https://zhuanlan.zhihu.com/p/103218627
ZEN 提出一个基于中文BERT模型的强化,它的创新点在于不改变原本bert模型的做法之下,增加了n-gram的强化,从而得到了几乎媲美ERNIE2.0的效果,可以说这个是一个非常大的强化了。具repo体见。
(n-gram:自然语言处理中的一个概念,按照字节进行大小为N的滑动窗口操作,形成N个字节片段的序列。本质上是一种基于统计语言模型的算法。
对于形成的每一个字节片段(gram)进行频度统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
例子:
(1) . 漂亮(2-gram)
(2) . 纪录片 (3-gram)
(3) . 他站起来(4-gram)

创新点:(mask方面)
1、像ERNIE的mask的方式只能依赖于已有的词,句的信息。
2、以前的mask的方式,在pre-training 和 fine-tuning阶段存在mismatch,即fine-tuning阶段没有保存词,句的信息,但是ZEN的词句的信息在finetuning阶段也保存了
3、错误的NER或者mask会影响encoder的效果。
结构:
ZEN 主要分为两个步骤:
1)N-gram提取(N-gram Extraction):
1、Lexicon:在训练之前,需要先进行N-gram extraction,这就是把语料库里所有的N-gram提取出来,所谓的N-gram就是词组。然后设置阈值,按照频次倒序排序,去掉频次低于阈值的N-gram。注意这边的N-gram,可以是包含关系,例如里面同时存在,港澳和粤港澳。对于这个Lexicon,不考虑单个词的N-gram。
2、N-gram Matching Matrix:然后对于每一条输入的训练数据,长度为kc ,共匹配到了kn个N-gram,我们创一个N-gram Matching Matrix 形状为Kn*kc的M矩阵,矩阵中的元素为:
在这里插入图片描述

其中: [公式] : 第 [公式] 个 character, [公式] :第 [公式] 个N-gram 例如输入是: 粤港澳大湾区城市竞争力强…和交通一体化 我们提取出来的N-gram有{一体化…,港澳,粤港澳大湾区} M:
在这里插入图片描述

2)N-gram集成(N-gram Integration):包括 N-gram encoding和N-gram representation
虽然模型使用了N-gram的信息,但是模型的输出还是跟原本BERT一样是character level的encoding。
1、N-gram encoding:
使用transformer的encoding,只是因为我们的N-gram的顺序并不需要考虑,所以模型没有使用position encoding。
2、Representing N-grams in Pre-training:
模型在对ngram进行encoding之后,如何进行结合的?这个要就是直接进行vector的相加。(细节参考原博)
实验:
没有做STS相关,但是有其他任务:
在这里插入图片描述

ZEN2.0:
摘要:
和1.0相比加入了跨语言训练,和1.0有相同的结构。
改进:
1、 重新定义n-gram的表示(将M矩阵改成带有权重的矩阵?)
2、 在训练步骤对n-gram/词语添加mask,而不是原来的字
3、 使用相关position encoding

CirRoBerta

榜一模型
代码:

ERNIE 3.0

我啥时候能学会用paddlepaddle

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值