关于encoder decoder model(seq2seq)的演进

最新推荐文章于 2024-06-13 23:59:29 发布

wonag

最新推荐文章于 2024-06-13 23:59:29 发布

阅读量397

点赞数 11

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45124463/article/details/139213600

版权

传统的机器翻译(seq2seq)任务使用encoder-decoder架构，演化成了现在基于attention的transformer架构

传统的实现方式：

encoder: 输入sequence，输出一个context vector

encoder decoder都使用RNN（LSTM）实现

如果源语言输入序列比较长，这种结构会导致固定长度的context vector，可能无法存储全部的语义信息，而注意力机制的提出则解决了这个问题

传统RNN+Attention:

很像现在的attention结构，α为注意力系数，使用“对齐模式”进行计算，对输入的隐层状态进行加权

现代Attention: 输入一列vectors 输出一列考虑了上下文信息的vectors

attention层仅进行上下文信息融合

基于现代attention的transformer架构：

encoder: N to N

decoder: 输出向量一个一个往外蹦

使用masked attention了解模型自己已输出的结果（倒嚼）

使用cross attention连接encoder输出的N vectors和masked attention输出，

Q来自output, K , V来自encoder的N vectors

cross attention:

关注

11
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
关于encoder decoder model(seq2seq)的演进

传统的机器翻译(seq2seq)任务使用encoder-decoder架构，演化成了现在基于attention的transformer架构encoder: 输入sequence，输出一个context vectorencoder decoder都使用RNN（LSTM）实现如果源语言输入序列比较长，这种结构会导致固定长度的context vector，可能无法存储全部的语义信息，而注意力机制的提出则解决了这个问题。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。