NLP学习
文章平均质量分 68
江 东
脚踏实地
展开
-
Transformer总结和梳理
首先来看一下Transformer结构的结构:Transformer是由Encoder和Decoder两大部分组成,首先我们先来回顾一下Transformer的结构:Transformer结构主要分为两大部分,一是Encoder层结构,另一个则是Decoder层结构。原创 2022-11-20 23:54:34 · 2390 阅读 · 1 评论 -
对Transformer中的MASK理解
上一篇文章我们介绍了,今天我们来介绍一下对MASK的理解老规矩,还是先放一张Transformer的图片Transformer结构主要分为两大部分,一是Encoder层结构,另一个则是Decoder层结构,而所谓的MASK在Encoder和Decoder两个结构中都有使用。Transformer中的MASK主要分为两部分:Padding Mask和Sequence Mask两部分。原创 2022-11-14 19:39:01 · 3671 阅读 · 0 评论 -
对Transformer中FeedForward层的理解
今天来说一下Transformer中FeedForward层,首先还是先来回顾一下Transformer的基本结构:首先我们还是先来回顾一下Transformer的结构:Transformer结构主要分为两大部分,一是Encoder层结构,另一个则是Decoder层结构,Encoder 的输入由 Input Embedding 和 Positional Embedding 求和输入Multi-Head-Attention,然后又做了一个ADD&Norm,再通过Feed Forward进行输出。原创 2022-10-10 21:05:16 · 21454 阅读 · 5 评论 -
对Transformer中Add&Norm层的理解
首先我们还是先来回顾一下Transformer的结构:Transformer结构主要分为两大部分,一是Encoder层结构,另一个则是Decoder层结构,Encoder 的输入由 Input Embedding 和 Positional Embedding 求和输入Multi-Head-Attention,再通过Feed Forward进行输出。原创 2022-10-09 22:02:01 · 18082 阅读 · 9 评论 -
对Transformer中self-attention的理解
首先我们来看一下Transformer架构:对于input输出,首先进行input embedding,然后再进行positional encoding,将两者相加作为Encoder的输入,也就是输如X何为self-attention?首先我们要明白什么是attention,对于传统的seq2seq任务,例如中-英文翻译,输入中文,得到英文,即source是中文句子(x1 x2 x3),英文句子是target(y1 y2 y3)原创 2022-10-08 11:47:04 · 2253 阅读 · 0 评论 -
对Transformer中Positional Encoding的理解
Transformer是由Encoder和Decoder两大部分组成,首先对于文本特征,需要进行Embedding,由于transformer抛弃了Rnn的结构,不能捕捉到序列的信息,交换单词位置,得到相应的attention也会发生交换,并不会发生数值上的改变,所以要对input进行Positional Encoding。Positional encoding和input embedding是同等维度的,所以可以将两者进行相加,的到输入向量。原创 2022-10-07 12:34:16 · 2167 阅读 · 0 评论 -
怎么理解预训练模型?
预训练“的做法一般是将大量低成本收集的训练数据放在一起,经过某种预训方法去学习其中的共性,然后将其中的共性“移植”到特定任务的模型中,再使用相关特定领域的少量标注数据进行“微调”,这样的话,模型只需要从”共性“出发,去“学习”该特定任务的“特殊”部分即可。原创 2022-10-06 11:21:14 · 3229 阅读 · 0 评论 -
HuggingFace的安装和编码
加载预训练模型bert-base-chinese,初次加载可能需要较长的时间。原创 2022-10-05 11:19:05 · 2497 阅读 · 1 评论