NLP
文章平均质量分 83
云隐雾匿
这个作者很懒,什么都没留下…
展开
-
模型蒸馏与压缩简单介绍
预训练语言模型虽然在众多自然语言任务中取得了很好的效果,但通常这类模型的参数量较大,很难满足实际应用中的时间和空间需求。下图给出了常见预训练语言模型参数量的发展趋势。可以看到,预训练语言模型的参数量呈加速增大的趋势。这使得在实际应用中使用这些预训练语言模型变得越来越困难。因此,除了优化预训练语言模型的预测精度,如何能够降低预训练语言模型参数量以及加快运行效率也是非常重要的研究方向。目前主流的预训练语言模型压缩方法是知识蒸馏技术。知识蒸馏。原创 2023-04-20 11:25:31 · 418 阅读 · 0 评论 -
对话系统之解码策略(Top-k & Top-p & Temperature)
对话系统,回复生成解码策略(Top-k采样 & Top-p采样 & Temperature采样)贪心解码(Greedy Decoding):直接选择概率最高的单词。这种方法简单高效,但是可能会导致生成的文本过于单调和重复。随机采样(Random Sampling):按照概率分布随机选择一个单词。这种方法可以增加生成的多样性,但是可能会导致生成的文本不连贯和无意义。集束搜索(BeamSearch):在每一个时间步,不再只保留当前概率最高的一个单词,而是按照概率从高到低排序,保留前num_beams个原创 2023-12-17 12:25:07 · 352 阅读 · 0 评论 -
我的创作纪念日兼GPT模型简单介绍
创作纪念日兼GPT模型简单介绍原创 2023-07-05 22:38:10 · 1335 阅读 · 1 评论 -
Transformer-XL模型简单介绍
以自注意力机制为核心的 Transformer 模型是各种预训练语言模型中的主要组成部分。自注意力机制能够构建序列中各个元素之间的上下文关联程度,挖掘深层次的语义信息。然而,自注意力机制的时空复杂度为,即时间和空间消耗会随着输入序列的长度呈平方级增长。这种问题的存在使得预训练语言模型处理长文本的效率较低。传统处理长文本的方法一般是切分输入文本,其中每份的大小设置为预训练语言模型能够单次处理的最大长度(如512)。原创 2023-06-22 17:03:35 · 1617 阅读 · 0 评论 -
ELECTRA模型简单介绍
通过前面的介绍可以发现,生成器和判别器的主体结构均由BERT组成,因此两者完全可以使用同等大小的参数规模。注意:由于生成器和判别器衔接的部分涉及采样环节,判别器的损失并不会直接回传到生成器,因为采样操作是不可导的。因为上文讲到生成器只会在预训练阶段使用,而在下游任务精调阶段是不使用的,因此减小生成器的大小是合理的。需要注意的是,这里只预测经过掩码的词,即对于某个掩码位置t,生成器输出对应原文本 xt 的概率。接下来,判别器的目标是从采样后的句子中识别出哪些单词是和原始句子 x 对应位置的单词一样的,即。原创 2023-05-30 10:25:03 · 1217 阅读 · 0 评论 -
MobileBERT模型简单介绍
可以看到在渐进式知识迁移中,词向量层和最终分类输出层的权重是直接从教师模型拷贝至学生模型的,始终不参与参数更新。首先,学生模型开始学习教师模型的第一层。接下来,学生模型继续学习教师模型的第二层,而此时学生模型的第一层权重是不参与更新的。依此类推,当学生模型学习教师模型的第i层时,学生模型中所有小于 i 层的权重均不参与更新。需要注意的是,由于MobileBERT(学生模型)与教师模型的层数一致(均为12层),这里不需要设计映射函数,只需要将教师模型和学生模型的每一层进行一一对应即可。原创 2023-04-21 21:28:32 · 719 阅读 · 0 评论 -
可控文本生成简单介绍
它之所以能够实现可控文本生成,其核心思想是从海量无标注数据中定位文章所在的领域或其他属性,并作为控制代码(Control codes)放在输入文本的头部,以指导后续文本的生成。其核心思想是,对于预训练语言模型(GPT-2)以及目标属性a(例如情感、 主题等),利用当前的生成结果是否满足属性a(即条件概率P (a|x))对生成进行修正,使其朝着满足该属性的方向变化。除了作为预训练模型用于语言表示、条件式生成等下游任务,语言模型的另一个重要的功能是“写作” ,或定向文本生成。,或者“方向” ,因此实用性较弱。原创 2023-04-19 20:34:29 · 967 阅读 · 0 评论 -
GPT-3模型简单介绍
模型在不同序列上的训练则对应元学习的“外循环”(Outer loop),起到了在不同任务之间泛化的作用,以避免模型过拟合至某一个特定的任务。由于GPT-3庞大的参数量,目前在将 GPT-3用于下游任务时,主要是在小样本学习的设定下直接进行推理, 而不对模型本身作进一步的精调。)相似,OpenAI提出的GPT-3模型(第三代GPT)也是通过将不同形式的自然语言处理任务重定义为文本生成实现模型的通用化。实验表明,GPT-3模型不需要任何额外的精调,就能够在只有少量目标任务标注样本的情况下进行很好的泛化。原创 2023-04-19 20:19:03 · 1343 阅读 · 0 评论 -
T5模型简单介绍
谷歌公司的研究人员提出的T5(Text-to-Text Transfer Transformer,有5个T开头的单词,所以叫做T5)模型采用了一种与前述模型截然不同的策略:将不同形式的任务统一转化为条件式生成任务。原创 2023-04-18 10:45:59 · 2711 阅读 · 0 评论 -
UniLM模型简单介绍
如果将基于Transformer的双向语言模型(如BERT模型中的掩码语言模型)与单向的自回归语言模型(如BART模型的解码器)进行对比,可以发现,两者的区别主要在于模型能够使用序列中的哪部分信息进行每一时刻隐含层表示的计算。对于目标文本片段,则采用自回归的方式逐词生成,在每一时刻,可以利用条件文本中的所有上下文表示,以及部分已生成的左侧上下文表示,如图(c)所示。它的核心思想是通过使用不同的自注意力掩码矩阵控制每个词的注意力范围,从而实现不同语言模型对于信息流的控制。原创 2023-04-15 17:05:00 · 911 阅读 · 0 评论 -
BART模型简单介绍
对于序列分类任务(如文本情感分类),BART模型的编码器与解码器使用相同的输入,将解码器最终时刻的隐含层状态作为输入文本的向量表示,并输入至多类别线性分类器中,再利用该任务的标注数据精调模型参数。与BERT模型的 [CLS] 标记类似,BART模型在解码器的最后时刻额外添加一个特殊标记,并以该标记的隐含层状态作为文本的表示,从而能够利用完整的解码器状态。在这些任务中,编码器的输入是作为条件的输入文本,解码器则以自回归的方式生成对应的目标文本。对于不同的任务,BART模型的精调方式有所不同。原创 2023-04-14 21:10:22 · 4918 阅读 · 0 评论 -
自训练和协同训练简述
自训练和协同训练简述,在深度学习中,自训练和协同训练是两种常见的半监督学习算法,本文将简单介绍两种算法的基本思想。原创 2023-03-17 22:28:58 · 1535 阅读 · 0 评论 -
端到端模型(end-to-end)与非端到端模型
端到端模型(end-to-end)与非端到端模型,pipeline,序列到序列原创 2023-02-10 13:14:32 · 5808 阅读 · 0 评论 -
简单地了解NLP
简单地了解NLP自然语言处理(NLP)是研究人与计算机交互的语言问题的一门学科。NLP就是利用人类交流所使用的自然语言与机器进行交互通讯的技术,对自然语言各方面(包括话语、句法结构、单词、语意解释等)的分析,理解出用户想表达的意思,从而得到机器可读并理解的语言。自然语言处理(NLP)的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG)。自然语言的理解就是希望机器可以和人一样,有理解他人语言的能力;自然语言的生成就是将非语言格式的数据转换成人类的语言格式,以达到人机交流的目的。原创 2023-02-03 22:00:06 · 1742 阅读 · 0 评论 -
NLP中<SOS>、<EOS>、<UNK>、<PAD>等标识符的含义
、、、、、、、、。自然语言处理中、、、等标识符的含义原创 2023-01-28 21:59:59 · 4308 阅读 · 1 评论 -
浅谈多任务学习
多任务学习,Multi-task Learning原创 2023-01-25 13:32:26 · 2208 阅读 · 0 评论 -
监督学习、半监督学习、无监督学习、自监督学习、强化学习和对比学习
监督学习、半监督学习、无监督学习、自监督学习、强化学习和对比学习原创 2023-01-15 22:21:45 · 8764 阅读 · 0 评论 -
如何使用无标签数据进行训练?
如何使用无标签数据进行训练?自训练、预训练、数据增强等。人为地去构造一些子任务(论文里的protext task),或者利用一些最基本的公理性常识,去设计“类似监督”的任务。原创 2023-01-13 21:31:29 · 3566 阅读 · 0 评论