NLP模型卡集册
金色麦田~
新人小白,多多关照!
展开
-
NLP模型卡-ALBert
一:模型简介其全称:A lite Bert,小模型。顾名思义该模型主要用于解决现有模型参数过多,训练速度过慢的问题,实际上做的类似模型压缩的工作。主要通过对词嵌入矩阵进行因式分解,使得其词典打下V和隐藏层大小H分离开来,这样模型参数不会随着词典的增大而急剧增大。同时使用跨层参数共享(Cross-layers parameter sharing),使得模型参数量不随模型层数而增加,进一步减小模型大小和训练时间。二:论文ALBert:A lite bert for self-supervised lear原创 2020-05-23 20:27:01 · 451 阅读 · 0 评论 -
NLP模型卡-RoBERTa
一:模型简介许多Bert+的模型基本都会对Bert的模型结构进行修修补补,然后跑出一个SOTA值,但是RoBerta并没有提出一个新的模型结构,其全名是A Robustly Optimized BERT Pretraining Approach,一种鲁棒的Bert预训练方法(按理说应该叫RoBERTpa,估计是不太好读吧,事实证明起个易于上口的名字有利于企业的发展,比如巴依尔是哪个车名的前身?)而是对Bert的预训练方法进行了改进,除了改变Mask的方式之外,其他各个改进基本都是上演着大力出奇迹的事情。原创 2020-05-21 22:26:01 · 1119 阅读 · 0 评论 -
NLP模型卡-XLNet
一:模型简介在Bert模型中,由于Mask符号只在预训练的过程中出现和使用,但是在后续微调或下游任务中不出现,这就会导致这两个阶段出现不一致的问题,同时这个设置还会造成训练数据利用率不高的问题。而对于AR(Auto regression)模型来说其能获取更长距离的依赖,但是却不如Bert类AE(Auto Encoding)的模型具有捕获双向信息的能力。因此XLNet整合了这两个模型的优点同时解决了Bert中Mask符合的问题,也使得模型更加适用于生成式的任务。二:来至论文XLNet:Generaliz原创 2020-05-21 17:58:31 · 315 阅读 · 0 评论 -
NLP模型卡-Transformer-XL
一:模型简介全名是 Transfomer extra long,顾名思义,主要是为了解决Bert或Transformer中只能在固定的长度的上下文中学习依赖关系的问题,主要提出了segment-level recurrence和relative positonal encoding两个方案。二:论文Transformer-XL:Attentive Language Models Beyond a Fixed-Length Context发布者:CMU, Google Brain 2019-ACL三原创 2020-05-21 00:40:59 · 309 阅读 · 0 评论 -
NLP模型卡-Bert
模型简介BERT的全称为Bidirectional Encoder Representations from Transformers,即双向Transformer的Encoder。Bert模型算是Transformer模型(encoder)的一种堆栈,不同的是把其改造成双向模型,同时完成单词补全(Masked model)和句子关系预测(sentence prediction)两个任务,提高了模型的特征提取能力。论文:Bert:Pre-training of Deep Bidirectional T原创 2020-05-21 00:34:33 · 700 阅读 · 0 评论