![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 71
凯子要面包
这个作者很懒,什么都没留下…
展开
-
《Do Transformers Really Perform Bad for Graph Representation?》论文笔记
论文提出 Graphormer 对“图数据结构”进行表征学习,Graphormer 是基于标准 Transformer 模型结构, 通过加入 Centrality Encoding、Spatial Encoding 、Edge Encoding 技术编码图结构信息, Centrality Encoding 主要用于编码节点的重要度信息, Spatial Encoding 主要用于编码节点位置结构信息。模型示意图如下: 给定一个图对象 G=(V,E)G=(V, E)G=(V,E), V={v1,v2,..原创 2022-06-07 17:23:09 · 316 阅读 · 0 评论 -
《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》论文笔记
ChineseBERT 与 BERT 非常相似,只是在 Embedding 层上,前者对每个输入单元还添加了“字形”、“拼音”信息。由于中文是象形文字,因此字形中也包含了一定的语音信息,而加入拼音信息主要是为了解决一字多音——不同的发音包含不同的语义信息, 模型整体结构如下所示:每个token的 Char embedding、Glyph embedding、 Pinyin embedding 会先进行 concatenate操作,然后经过全连接映射,最后与 Position embedding相加输入到原创 2022-06-06 16:31:45 · 316 阅读 · 0 评论 -
《ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS》论文笔记
ELECTRA 提出“替换词检测” 预训练任务,在计算损失时,考虑全部输入, 而非 MLM 中15%的输入;另一方面解决了[MASK] 在预训练与Fine-Tuning 阶段不一致的问题。 替换词检测替换词检测任务采用如下结构:生成器理论上可以采用任何模型,论文中采用的是Transformer Encoder,并进行 MLM 任务。MLM 任务会给出一个新的输入序列,这个新的输入序列会作为判别器的输入, 判别器的任务是检查新输入中的词是否是替换词,即对每一个词进行二分类。最终预训练的损失原创 2022-05-16 15:11:58 · 358 阅读 · 0 评论 -
《UNILMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training》论文笔记
UniLMsUniLMs由《Unified Language Model Pre-training for Natural Language Understanding and Generation》(2019)提出,其核心是通过不同的注意力机制,在同一模型下进行Unidirectional Language Model, Bidirectional Language Model, 与 Sequence to Sequence Language Model三种任务。Bidirectional LM:原创 2022-05-16 11:09:53 · 596 阅读 · 0 评论 -
《BART: Denoising Sequence-to-Sequence Pre-training》论文笔记
模型结构BART采用一种去噪自编码方法进行预训练,不同于BERT仅使用Transformer Encoder结构,BART使用Encoder-Decoder结构。Encoder类似BERT采用双向注意力,Decoder类似GPT采用Left2Right注意力。由于采用Seq2Seq结构,Encoder部分可以采用任意的“加噪声方法”, 注意一种极端的加噪声方式,就是完全遮盖掉Encoder的输入,此时就相当于GPT。模型结构如下图所示:在BART Base中,Encoder 与 Decoder 各为原创 2022-04-29 17:11:19 · 1533 阅读 · 0 评论 -
《Improving Language Understanding by Generative Pre-Training》论文笔记
引言GPT(Generative Pre-Training) 受到 《Semi-Supervised Sequence Learning》与《Universal Language Model Fine-tuning for Text Classification》的启发,采用“预训练 + Fine-tune” 两阶段的方式,在不降低模型效果的基础上,以统一的模型结构处理不同的NLP任务,并有效地降低有监督学习对标注数据的依赖。 预训练阶段GPT 采用 Transformer Decoder原创 2022-04-29 14:03:27 · 557 阅读 · 0 评论 -
《Not Enough Data? Deep Learning to the Rescue》论文笔记
引言文本数据增强技术在小样本分类任务上,有助于模型效果的提升。已有的数据增强技术如EDA、Conditional BERT采用的是局部替换的方式,在预训练语言模型效果显著提升的背景下,作者试图采用GPT2,以文本生成的方式合成新样本,而非局部替换的方式,探索提升模型效果的方法。 LAMBADALAMBADA(Language Model Based Data Augmentation)是一种基于语言模型的数据增强方法,具体详情如下:输入部分需要“训练数据集合,分类算法、预训练语言模型、原创 2022-04-19 14:43:40 · 319 阅读 · 0 评论 -
《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》论文笔记
EDA作者提出四种简洁有效的文本数据增强方法,可以提升分类任务的效果,称为EDA(Easy Data Augmentation),四种方法如下:同义词替换(Synonym Replacement):从输入中随机选择 N 个非停用词,对选中的词,从它们的同义词中随即选择一个替换原词。随机插入(Random Insertation):随机选择一个非停用词,然后随机选择该非停用词的一个同义词,将该同义词随机插入输入序列的任意位置上,重复 N 次。随机调换(Random Swap):随机选择输入序列中的一原创 2022-04-15 11:43:30 · 330 阅读 · 0 评论 -
《Conditional BERT Contextual Augmentation》论文笔记
Conditional BERT Contextual Augmentation直观来看,MLM 是一种非常好的“基于上下文”的数据增强方式(后面的实验结果也证明,直接使用Bert也可以取得较好的效果。), 但是在分类任务中,人工合成的数据不应丧失“标签信息”。比如原文“The movie is good.”,good 一词被 Mask, 而预测为 bad, 则改变了标签的信息。因此在预测替换词时,不仅需要考虑上下文信息,还应该考虑标签信息, 据此本文提出了Conditional Bert。原创 2022-04-12 14:53:46 · 1626 阅读 · 0 评论 -
《PERT: Pre-Training Bert With Pemuted Language Model》论文笔记
简介作者提出,预训练模型大致可以分为两大类,自编码(AutoEncoder) 与自回归(AutoRegressive),自编码的典型代表是BERT, 自回归的典型代表是GPT。Bert预训练阶段采用 MLM + NSP 预训练任务,在NLU中取得了非常好的成绩。为了提升预训练模型的能力,作者试图探索不同的预训练方法,即提出本文的“乱序语言模型”(Permuted Language Model)。实际上还有一大类预训练模型,这类模型试图结合“自编码 + 自回归”两者的优势,代表有XLNet, UniLMs原创 2022-04-12 10:17:03 · 730 阅读 · 0 评论 -
《Focal Loss & GHM Loss & Dice Los》论文笔记
Focal Loss在二分类问题中,交叉熵损失定义如下:yyy 表示真实值,取值0与1,ppp表示模型预测正类的概率,取值0到1。为了表述方便,将上述公式重新表述为:对于类别不平衡问题,我们可以为每个类别加不同的权重,使得每个类别对总损失的贡献程度有差异,如下所示,αt\alpha_tαt 表示每个类的权重值,一般可取值“类样本数的逆频数”。与类加权的思想非常相似,Focal Loss 在交叉熵损失的基础之上,添加了一个权重调节项(1−p)γ(1 - p )^\gamma(1−p)γ。如下原创 2022-04-11 15:18:05 · 4305 阅读 · 0 评论 -
《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记
模型模型部分与Bert论文完全一致,只是为分类任务的输入样本构建了“辅助序列”——这种方法只适用于“单序列分类”,对于“语句相似性”等句对分类任务不适用。上图输入部分的 aia_iai 表示的是人工构建的辅助序列的token。作者提出三种构建“辅助序列”的策略,1)辅助序列是一个不包含标签信息的问句, 用BERT4TC-AQ标识;2)辅助序列是只包含一个标签名称的文本描述,用BERT4TC-AA标识;3)辅助序列是一个仅包含一个标签名称与若干其它词的文本描述, 用BERT4TC-AWA标识。作者原创 2022-04-02 16:26:32 · 970 阅读 · 0 评论 -
《How to Fine-Tune BERT for Text Classification》论文笔记
方法论作者提出三种FineTune Bert的方法:1)直接使用下游目标数据集进行FineTune;2)先在目标领域上进一步Pretraining Bert, 再利用目标数据集FineTune; 3)与方法2类似,但加入了Multi-Task FineTune。 进一步预训练已有很多研究表明,在目标领域进一步预训练预训练模型,能提升预训练模型在下游任务的表现,依据进一步预训练的数据集,可分为三类:1)预训练时,仅能使用下游目标标注数据集;2)预训练时,可以使用目标任务所在领域的大量数据,原创 2022-04-01 15:36:52 · 1459 阅读 · 0 评论 -
《Multi-Task Deep Neural Networks for Natural Language Understanding》论文笔记
摘要作者提出MT_DNN迁移学习方法,该方法试图结合 Multi-Task Learning 与 Pretraining LM 的优点。MT_DNN的示意图如下:MTL是指“同一模型同时在多个相关数据集上,进行多任务的学习”,这样的好处不仅可使模型利用更多的数据集,也具有正则效果。而加入预训练模型的优势,则是将预训练模型作为Encoder, 这个Encoder处于网络结构的底层,被多个任务所共享,而每个特定的任务具有特定的学习层则处于上层。 模型结构Encoder部分就是Bert,可参原创 2022-04-01 14:36:49 · 177 阅读 · 0 评论 -
《Universal Language Model Fine-tuning for Text Classification》论文笔记
摘要基于Pretrain-Finetune与语言模型的优点,作者提出 ULMFiT 迁移学习方法,降低深度学习模型对标注数据集的依赖, 以及提升模型表现。 ULMFiT 包含三个主要步骤, 第一,在大规模通用数据集上训练语言模型, 第二,将预训练模型在目标领域数据集上进行FineTune,使预训练模型学习目标数据集的特征,最后在目标数据集合上FineTune 目标分类器。 相关研究Multi-Task Learning多任务学习是指“使同一模型同时进行多个任务, 同时进行的任务可以在同一原创 2022-03-31 16:56:00 · 1405 阅读 · 0 评论 -
词袋模型&TF-IDF
前言在许多NLP任务中,将文档转换成数学形式的“向量”是解决任务所必须的处理过程。其中词袋模型(Bag of Word)、TF-IDF是两种最基本的处理方式。 BOW原理假设有MMM篇需处理的文档,那么怎样使用向量的形式来表示每一篇文档呢?并且这个向量应该不能丢失掉原始文档的过多信息。一种思路为, 可以设置NNN个问题,然后对于每一篇文档,依次回答给定的所有问题,并仅记录问题的答案,再将答案按照一定的格式组合成向量,那么就可以认为该向量包含了原始文档的部分信息。具体到词袋模型,NNN个原创 2021-09-10 18:18:35 · 992 阅读 · 0 评论 -
【论文学习】Transformer-XL
目录简介模型Vanilla Transformerrecurrence mechanism相对位置编码参考资料简介transformer结构在许多任务上取得很好的效果,但是在处理长文本方面还是存在不足,transformer-XL(XL表示extra long)在transformer的基础之上,引入“基于segment粒度的循环机制”、“相对位置编码”,提高了处理长文本的能力。模型Vanilla Transformertransformer-XL引入的循环机制,参考了Vanilla Transf原创 2021-09-01 22:44:40 · 300 阅读 · 0 评论 -
【论文学习】RoBERTa
目录摘要训练过程分析摘要RoBERTa(A Robustly Optimized BERT Pretraining Approach)基本与BERT一致,但在以下方面做了一些细节调整:1)在更多数据上,以更大batch_size,训练更长时间;2)取消NSP任务;3)更大序列长度上训练(实际都是512,只不过数据处理上尽量选取长文本作为输入);4)dynamic mask。训练过程分析dynamic mask:BERT采用的是静态mask机制,静态体现在数据处理过程,具体做法就是“现将数据复制几份,原创 2021-08-16 17:08:06 · 292 阅读 · 0 评论 -
【论文学习】ALBERT
目录简介ALBERT三大改进简介为了加速计算,以及克服hidden size 、hidden layer等超参数值增大,导致模型退化的问题,ALBERT(A Lite BERT)提出来两种参数优化的技术——“embedding layer分解、跨层参数共享”, 并增加SOP(Sentence Order Prediction)任务替换NSP(Next Sentence Prediction)任务。ALBERT三大改进ALBERT的结构与BERT十分类似,只是在以下三个方面做了优化:embeddin原创 2021-08-16 16:06:47 · 218 阅读 · 0 评论 -
BatchNormalization & LayerNormerlization
BN(BatchNormalization) 与 LN(LayerNormerlization)的主要区别在于数据处理的维度不同,在NLP中,假设输入shape为(batch_size, seq_len,embedding_dim),则BN的处理维度为“seq_len”, LN的处理维度为“embedding_dim”。对于BN,会在输入序列每一个位置上,切片出seq_len 个(batch_size, embedding_dim)形状的张量,然后“以列方向的形式”,计算batch_size维度上每一列的原创 2021-08-09 19:26:52 · 224 阅读 · 0 评论 -
《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文笔记
Bert原理Bert、GPT与ELMo的结构差异在水平方向上,ELMo中每层的‘Lstm’指的是LSTM层中的一个单元,同理Bert与GPT中的’Trm’指的是同一个Transformer单元;Bert中的Transformer单元,只使用了《Attention is all your need》中Transformer的Encoder部分Bert实战参考资料:...原创 2020-08-17 17:21:35 · 348 阅读 · 0 评论