Transformer

深蓝蓝蓝蓝蓝

已于 2022-01-30 08:48:56 修改

阅读量197

点赞数

分类专栏：深度学习算法文章标签： java nlp 算法 python 自然语言处理

于 2020-12-08 11:02:27 首次发布

本文链接：https://blog.csdn.net/wrk226/article/details/122740509

版权

深度学习算法专栏收录该内容

16 篇文章 1 订阅

订阅专栏

假设这里我们的任务还是从中文翻译成英文。
positional encoder：在普通的seq2seq模型中我们会使用embedding来给每个输入字符在embedding space中找定位置，从而让相似的词拥有相似的向量。但是同一个词在句子的不同位置也往往有不同的意思，因此这里就引入了postitional coding，基本就是通过公式计算出来字符在sentence中位置的表达向量。然后结合positional encoding和embedding来构成一个新的包含位置信息的embedding。
然后就是self attention，这个是为了获得当前字符于其他字符的关联性。也即每个中文字符与其他中文字符的关联性。这里会出现的问题是每个word可能和自己的相关性太高，导致attention weight价值低，所以这里就引入了multihead attention，意思是同时对word做多个attention,然后用这些attention做加权平均，来得到最终的attention weight.
feed forwared:这个就是个线性模型，目的就是把attention的输出调整成适合下一层的输入。
decoder：
decoder中我们会先输入英语的embedding，然后也加上position information。
然后和encoder中一样，使用self attention，然后将这里的输出和encoder里的输出一起输入下一层。不过这里的self attention是加了mask的，加的mask是将所有还未出现的word的embedding都调成0，这样的原因是如果不加mask的话，那么每次输出都是一模一样的，会导致网络学不到任何东西。
encoder-decoder-attention：这里对decoder输出的内容和encoder输出的内容
一起做attention，可以得到每个中文字符对应每个英文字符的attention weight。这里就是可以得到中文和英文一一对应的重要性
最后得到的输出经过几个线性层就可以得到输出了，我们得到的输出是对于下一个词的预测，是基于softmax的，就是从多个候选中选出最合适的那个词。不断将预测出的值输入decoder知道生成了最后一个word。

深蓝蓝蓝蓝蓝

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Transformer

假设这里我们的任务还是从中文翻译成英文。positional encoder：在普通的seq2seq模型中我们会使用embedding来给每个输入字符在embedding space中找定位置，从而让相似的词拥有相似的向量。但是同一个词在句子的不同位置也往往有不同的意思，因此这里就引入了postitional coding，基本就是通过公式计算出来字符在sentence中位置的表达向量。然后结合...
复制链接

扫一扫