自然语言处理
文章平均质量分 85
前行follow
learning sharing and discussing.
展开
-
【深度学习Tricks】 NoisyTune:微调前加入少量噪音可能会有意想不到的效果
paper地址:https://arxiv.org/abs/2202.12024NoisyTune 的目标是更有效地对下游任务的 PLM 进行微调。 PLM 在一些带有一些自我监督任务的未标记语料库上进行了很好的预训练,它们可能会过度拟合这些预训练数据和任务,这通常与下游任务和数据存在差距。 PLM 可能难以有效地适应下游任务,尤其是当这些任务中的标记数据有限时。 如图 1 所示,我们建议在 PLM 的参数中添加一些噪声,然后在下游任务上对其进行微调,以在参数空间中进行一些“探索”,并降低过度拟合预训练任务原创 2022-06-08 20:37:58 · 492 阅读 · 0 评论 -
一次Kaggle竞赛全过程记录
一次Kaggle竞赛学习全过程记录竞赛地址:https://www.kaggle.com/competitions/AI4Code/overview个人认为在工程方面,学习一个东西的方法就是去使用它。第一步(寻找方法)咱们去学习那些已经投票最多、可以正常运行的代码。第二步(解读源码)阅读别人源码,逐句阅读,加上自己的注释。(以这个notebook为例)Setupimport jsonfrom pathlib import Path # 导入文件路径库import numpy as原创 2022-05-24 16:00:01 · 606 阅读 · 0 评论 -
循环神经网络图解
循环神经网络RNN图解求导GRU图解LSTM图解Reference:[1] 动手学深度学习原创 2022-03-31 14:38:26 · 1503 阅读 · 0 评论 -
读论文——What does BERT look at An Analysis of BERT Attention
第一遍标题以及作者摘要本文提出了分析预训练模型的注意力机制并将其应用于 BERT 的方法。 BERT 的注意力头表现出诸如关注分隔符标记、特定位置偏移或广泛关注整个句子的模式,同一层中的头经常表现出相似的行为。本文进一步表明,某些注意力头很好地对应于语法和共指的语言概念。例如,我们发现对动词的直接宾语、名词的限定词、介词的宾语和共指提及有非常高的准确度。最后,我们提出了一个基于注意力的探测分类器,并用它来进一步证明在 BERT 的注意力中捕获了大量的句法信息。结论探测注意力图是对这些其他模型原创 2022-03-29 17:04:34 · 1836 阅读 · 0 评论 -
读论文——A Primer in BERTology What We Know About How BERT Works
第一遍标题以及作者摘要本文回顾了关于BERT如何工作、它学习了什么样的信息以及它是如何表示的、对其训练目标和架构的修改、过度参数化问题以及压缩的方法。然后本文概述了未来研究的方向。带着问题去读论文结论在一年多一点的时间里,BERT 已经成为 NLP 实验中无处不在的基线,并激发了许多分析该模型并提出各种改进的研究。论文流似乎正在加速而不是放缓,我们希望这项调查有助于社区关注最大的未解决问题。还有哪些未解决的大问题1 介绍BERT的基础是Transformer块,transfor原创 2022-03-28 18:42:42 · 1487 阅读 · 0 评论 -
查漏补缺之Transformer
查漏补缺之Transformer1. 为什么使用Transformer对序列进行建模?主要从两个维度进行比较上下文语义建模能力(包括方向和长度)Transformer > RNN > CNN,Transformer不仅可以关注双向的上下文信息,而且关注的序列长度也较长(在任意两个token之间的建模路径长度为1)然后相较于RNN,Transformer可以做并行计算,具有极大的速度优势2. 多头注意力为什么使用多头?多头是参考卷积神经网络中多通道的思想,通过投影将qkv投原创 2022-03-22 20:59:26 · 538 阅读 · 0 评论 -
读论文——XLNet Generalized Autoregressive Pretraining for Language Understanding
第一遍标题以及作者摘要BERT使用掩码破坏了输入(导致在训练阶段和推理阶段的输入出现了差异),忽略了掩码位置之间的依赖关系(即:掩码之间相互独立,但是被遮挡的词语,出现在句中不同位置是有区别的,例如:【我爱阅读】,如果是自回归模型,P(我爱阅读)=P(我)P(爱|我)P(阅|我爱)P(读|我爱阅);如果是自编码模型,P(我爱阅读|我爱maskmask)=P(阅|我爱)P(读|我爱),其中两个mask是相互独立,这是不符合语言直觉的)。本文的XLNet就是为了克服以上两个缺点,提出了一种排列语言模原创 2022-03-17 19:49:16 · 650 阅读 · 0 评论 -
读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)
缺一个好的中文预训练模型?来看看叭原创 2021-12-20 19:45:00 · 1173 阅读 · 0 评论 -
读论文——Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa
第一遍标题及作者(2021 4.11)摘要以往的研究表明,依赖树等句法信息可以有效地提高ABSA的性能,但是最近PTMs也在ABSA任务上非常有效因此,问题自然而然地出现,PTMs是否包含足够的句法信息,使我们可以得到一个好的 ABSA模型只基于 PTMs实验表明微调后的RoBERTa Induced Tree是更具有情感词的倾向,能够利于ABSA任务。结论本文分析了一些用于ALSC任务的树结构,包括parser-provided 依赖树和PTMs-induced 树。本文从原始PT原创 2021-12-13 19:00:00 · 2514 阅读 · 0 评论 -
读论文——Inducing Target-Specific Latent Structures for Aspect Sentiment Classification(EMNLP2020)
EMNLP2020 ABSA任务原创 2021-12-09 16:01:25 · 913 阅读 · 2 评论 -
读论文——EMNLP2021 Aspect-based sentiment analysis 精读第一篇
EMNLP2021情感分析论文精读第一篇原创 2021-12-07 19:59:27 · 1164 阅读 · 0 评论 -
读论文——DeBERTa(2021)
第一遍标题:DEBERTA: DECODING-ENHANCED BERT WITH DIS-ENTANGLED ATTENTION作者:Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen1微软研究院摘要:分离注意力机制,每个词用两个向量表示,分别表示内容和位置,利用分离矩阵计算注意力权重分数在模型预训练过程中,使用增强的掩码解码器在解码层中合并绝对位置,来预测掩码Token使用一种新的虚拟对抗训练方法对模型进行微调,提升模型泛化能力。原创 2021-11-23 19:30:00 · 973 阅读 · 0 评论 -
读论文——RoBERTa
第一遍标题:RoBERTa : A Robustly Optimized BERT Pretraining Approach作者:Yinhan Liu Myle Ott Facebook AI摘要:超参数的选择对最终结果有很大的影响,本文是对BERT的一些调参的研究结论:通过更长时间的训练模型,用更大的批量处理更多的数据,可以显著地提高性能移除下一个句子预测目标对较长的序列进行训练动态地改变应用于训练数据的掩蔽模式重要的图和表表1BERTbase原创 2021-11-21 17:21:12 · 594 阅读 · 0 评论 -
读论文——BERT
第一遍标题BERT :Pre-training of Deep Bidirectional Transformers for Language Understanding作者Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova单位:Google AI Language摘要和其他论文的区别以及自己的结果。BERT被设计用来预训练未标记文本的深度双向表示,通过联合作用于所有层的左右上下文。只需要一个额外的输出层就可以对原创 2021-11-20 19:31:14 · 481 阅读 · 0 评论 -
读论文——Transform
第一遍题目:Attention is all you need作者:Ashish Vaswani 谷歌大脑实验室摘要:提出一个纯使用注意力机制的编码-解码器优点:机器翻译任务上,模型具有更好的表现,且训练时间更短(并行能力强)Transformer成功用于英语的constituency parsing结论:展望:使用局部的受限自注意力机制去处理图片、语音和视频第二遍重要的图和表图1 模型结构主要由编码器和解码器组成,图 2. 按比例点乘注意力模块注意原创 2021-11-19 20:18:01 · 1349 阅读 · 0 评论