NLP
じんじん
这个作者很懒,什么都没留下…
展开
-
论文阅读——InstructGPT
从这些提示(提交给OpenAI API的文本提示和标注者自己写的)产生三个微调阶段的数据集:SFT(Supervised fine-tuning) dataset(约13K提示,从API和手写获得),RM dataset(约33K提示,从API和手写获得),PPO dataset(约31K提示,只从API获得)。InstructGPT模型最早版本的提示是标注者自己写的,这是因为我们需要一个类似指令的提示的初始来源来引导进程,而这些类型的提示并不经常提交给API上的常规GPT-3模型。原创 2023-10-28 14:59:18 · 1113 阅读 · 0 评论 -
论文阅读——GPT3
因此需要消除这个限制。解决这些问题的一个潜在途径是元学习——在语言模型的背景下,这意味着该模型在训练时发展了一系列广泛的技能和模式识别能力,然后在推理时使用这些能力来快速适应或识别所需的任务(如图1.1所示)模型结构和GPT2一样,但是改了初始化、预归一化、reversible tokenization,以及在transformers层中使用类似Sparse Transformer的交替密集和局部稀疏的注意力模式。关于“zero-shot”, “one-shot”, or “few-shot”原创 2023-10-27 22:58:10 · 915 阅读 · 1 评论 -
论文阅读——ELECTRA
G:给定位置t,将该位置token替换为mask,输入到G,G输出一个概率,结合softmax层,来产生mask位置的xt,从而G产生损坏的输入。输出只在mask的token中计算分数,不是所有的token。然后训练模型时并不是只被破坏的token,而是训练一个辨别模型来预测这些被破坏的输入的每一个token是否是被生成模型生成的样本替代的。输出只在mask的token中预测是不是真的,不是所有的。不是对选择的token直接用mask替代,而是替换为一个生成器网络产生的token。原创 2023-10-27 20:21:35 · 617 阅读 · 0 评论 -
论文阅读——BART
Token Deletion:随机抽取到的token删除(Token Masking是抽取到的token用mask代替,这个是随机抽取到的token删除),模型可以学习到什么位置的token丢失了。input:被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output。Document Rotation:文章中随机找到一个token,将文章翻转,以该token作为文章的开头。二、Loss:交叉熵。原创 2023-10-27 18:10:09 · 868 阅读 · 0 评论 -
论文阅读——DistilBERT
DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。大batch,4k,动态mask,去掉NSP。训练数据:和BERT一样。原创 2023-10-27 12:12:42 · 418 阅读 · 0 评论 -
论文阅读——RoBERTa
最初的BERT实现使用大小为30K的字符级BPE词汇表,该词汇表是在使用启发式标记化规则对输入进行预处理后学习的。RoBERTa使用包含50K子词单元的较大字节级BPE词汇表来训练BERT,而无需对输入进行任何额外的预处理或标记化。一、LM效果好但是各种方法之间细致比较有挑战性,因为训练耗费资源多、并且在私有的不同大小的数据集上训练,不同超参数选择对结果影响很大。使用复制研究的方法对BERT预训练的超参数和数据集的影响细致研究,发现BERT训练不够,提出训练BERT的方法RoBERTa。原创 2023-10-27 11:29:07 · 460 阅读 · 0 评论 -
论文阅读——BERT
损失函数-最大似然,首先在TriviaQA上微调,然后在SQuAD 上微调)、SQuAD v2.0(没有在TriviaQA上微调)、The Situations With Adversarial Generations (SWAG)2)训练两个子任务:Masked LM(MLM),Next Sentence Prediction (NSP)预训练参数初始化,针对不对任务在有标签数据的所有参数微调,不同任务各自单独微调。双向预训练模型——通过训练MLM子任务获得。二、训练:两阶段训练——预训练和微调。原创 2023-10-27 10:35:24 · 724 阅读 · 0 评论 -
CS224N NLP with Deep Learning - CNN
应该了解每个参数对你有多重要做消融试验很重要原创 2021-02-25 15:49:34 · 98 阅读 · 0 评论 -
CS224N NLP with Deep Learning - attention
注意力机制编码器输出的每个隐藏状态和注意力机制给出的权重的加权和就是上下文向量,这样就可以不简单的使用最后一个隐藏层状态作为全部语义表示而是用到了编码器的全部隐藏层状态信息,并且在不同时刻我们生成的权重也不同,这表示我们在不同时刻生成的权重也是不同的。如何生成注意力分数?从概率上来说非常好的一种方法是基于采样的方法,也就是连续采样,有时也被称为祖先采样,当我们已经生成了t-1个词的时候,接下来,基于我们的模型,得到第t个词的概率分布,然后我们根据模型的概率分布一次采样一个词...原创 2021-02-25 15:49:07 · 90 阅读 · 0 评论 -
CS224N NLP with Deep Learning - LSTM&GRU
原创 2021-02-25 00:16:56 · 78 阅读 · 0 评论 -
CS224N NLP with Deep Learning - RNN
传统的语言模型基于计数的n-gram模型,需要大量内存,表现越好,所需内存越大解决办法:递归神经网络rnn实际上是在扩展每个时间步长上相同的矩阵,所以在某种程度上可以将这种矩阵乘法看作是一个在所有时间步长上反复放大某些特定模式的过程。F1本质上是精确率和召回率的调和平均值...原创 2021-02-24 20:43:21 · 66 阅读 · 0 评论 -
CS224N NLP with Deep Learning - backpropagation
It is really important to have an actual understanding of the math behind most of deep learning. And in many cases, in the future, you will kind of the way backpropagation. You’ll just kind of assume it works based on a framework, software package that you原创 2021-02-24 00:00:42 · 93 阅读 · 0 评论 -
CS224N NLP with Deep Learning - window classification and neural networks
机器学习X是固定的,优化W深度学习需要求W和X输入是20维,8个隐藏单元,输出一个数值δxT是外积窗口越小,随机性越大每次更新时,看到的窗口越少,陷入局部最优的可能性就越小尝试完所有窗口,进行一次整体更新,效率低,且容易陷入局部最优...原创 2021-02-23 02:08:05 · 77 阅读 · 0 评论 -
CS224N NLP with Deep Learning - word2vec
Word2vec is a framework for learning word vectors.原创 2021-02-22 00:04:44 · 87 阅读 · 0 评论