self-attention结构

最新推荐文章于 2024-06-28 08:33:22 发布

weixin_45599022

最新推荐文章于 2024-06-28 08:33:22 发布

阅读量478

点赞数

文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45599022/article/details/108890407

版权

博客探讨了RNN/LSTM在序列模型中的局限性，指出在翻译任务中，decoder在训练和生成时输入的不同。文章提到，Transformer的encoder和decoder使用了self-attention层，解决了RNN的深度限制问题。在Decoder部分，除了self-attention，还有encoder-decoder attention层，以处理位置信息。通过预先在词向量中加入位置向量，并用加法融合，解决了词序问题。此外，提到了ELMO利用双向LSTM训练词向量的方法。

摘要由CSDN通过智能技术生成

decoder端输入训练时是对应的句子和encoder的output，

那生成时不知道翻译的结果输入的是什么呢？

decoder端跟lstm类似也是一个时序模型，输入的是上一个词的向量与encoder最后一层的feed forward。

生成时刚开始输入的为<start>的词向量。

关于位置信息：提前在训练的词向量里加了一个表示位置的向量进入模型进行训练，解决词序问题。

词向量与位置向量是加法不是拼接。每个位置的向量是人为定的。通过一个公式。

ELMO:双向LSTM训练得到的词向量。

RNN/LSTM存在问题：

模型“竖着的方向”不会很深。一般两层。

Transformer结构：

encoder和decoder两部分

最低0.47元/天解锁文章

weixin_45599022

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。