CHIPbenmark先进模型

最新推荐文章于 2024-07-25 11:27:31 发布

啥时候才能确定方向

最新推荐文章于 2024-07-25 11:27:31 发布

阅读量158

点赞数

文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/weixin_44125942/article/details/125866951

版权

打榜用的比较先进的dnn模型

ZEN2.0

代码：https://github.com/sinovation/ZEN2
ZEN、ZEN2.0
ZEN1.0：
摘自：https://zhuanlan.zhihu.com/p/103218627
ZEN 提出一个基于中文BERT模型的强化，它的创新点在于不改变原本bert模型的做法之下，增加了n-gram的强化，从而得到了几乎媲美ERNIE2.0的效果，可以说这个是一个非常大的强化了。具repo体见。
（n-gram：自然语言处理中的一个概念，按照字节进行大小为N的滑动窗口操作，形成N个字节片段的序列。本质上是一种基于统计语言模型的算法。
对于形成的每一个字节片段（gram）进行频度统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。
例子：
(1) . 漂亮（2-gram）
(2) . 纪录片（3-gram）
(3) . 他站起来（4-gram）
）
创新点：（mask方面）
1、像ERNIE的mask的方式只能依赖于已有的词，句的信息。
2、以前的mask的方式，在pre-training 和 fine-tuning阶段存在mismatch，即fine-tuning阶段没有保存词，句的信息，但是ZEN的词句的信息在finetuning阶段也保存了
3、错误的NER或者mask会影响encoder的效果。
结构：
ZEN 主要分为两个步骤：
1）N-gram提取（N-gram Extraction）：
1、Lexicon：在训练之前，需要先进行N-gram extraction，这就是把语料库里所有的N-gram提取出来，所谓的N-gram就是词组。然后设置阈值，按照频次倒序排序，去掉频次低于阈值的N-gram。注意这边的N-gram，可以是包含关系，例如里面同时存在，港澳和粤港澳。对于这个Lexicon，不考虑单个词的N-gram。
2、N-gram Matching Matrix：然后对于每一条输入的训练数据，长度为kc ，共匹配到了kn个N-gram，我们创一个N-gram Matching Matrix 形状为Kn*kc的M矩阵，矩阵中的元素为：
在这里插入图片描述

其中： [公式] : 第 [公式] 个 character， [公式] ：第 [公式] 个N-gram 例如输入是：粤港澳大湾区城市竞争力强…和交通一体化我们提取出来的N-gram有{一体化…，港澳，粤港澳大湾区} M：
在这里插入图片描述

2）N-gram集成（N-gram Integration）：包括 N-gram encoding和N-gram representation
虽然模型使用了N-gram的信息，但是模型的输出还是跟原本BERT一样是character level的encoding。
1、N-gram encoding：
使用transformer的encoding，只是因为我们的N-gram的顺序并不需要考虑，所以模型没有使用position encoding。
2、Representing N-grams in Pre-training：
模型在对ngram进行encoding之后，如何进行结合的？这个要就是直接进行vector的相加。（细节参考原博）
实验：
没有做STS相关，但是有其他任务：
在这里插入图片描述