Encoder-Decoder两大Attention机制解释

最新推荐文章于 2024-03-27 22:02:21 发布

酸辣螺丝粉

最新推荐文章于 2024-03-27 22:02:21 发布

阅读量2.9k

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhylhy520/article/details/95773652

版权

前面的博客，博主主要集中在讲解文本分类方面，后续会多写一点序列生成以及智能问答方面的博客，供大家交流。今天博主主要来介绍Seq2Seq模型中的比较著名的两大attention机制：Bahdanau 和 Luong。

Seq2seq

在介绍Attention机制之前，首先简单地介绍下Seq2Seq的模型框架。Seq2Seq可以解决文本序列生成的任务：机器翻译和自动摘要生成等。Seq2Seq由Encoder和Decoder两部分构成，如下图所示：
Seq2Seq结构图

Encoder部分：由双向LSTM或GRU结构组成，输入是做完词向量嵌入的文本信息，输入张量的shape为[batch_size,time_steps,word_embs],取双向LSTM或GRU最后一个time_step的隐层向量作为语义向量C。
Decoder部分：其输入为Encoder的输出，在解码的过程中对于中间语义向量C的使用有两种形式：（1）中间语义向量C参与解码的每个时刻（2）中间语义向量只参与解码的第一时刻。对于第一种中间语义向量C的使用方式来说，解码过程中每一时刻的输出与上一时刻的输出，当前时刻的隐层向量和C有关。

Seq2Seq without Attention

Attention模型最早应用在CV领域，如果没有Attention机制，就会产生失焦现象。比如人眼看一张带有宝宝的图像，

最低0.47元/天解锁文章

酸辣螺丝粉

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Encoder-Decoder两大Attention机制解释

前面的博客，博主主要集中在讲解文本分类方面，后续会多写一点序列生成以及智能问答方面的博客，供大家交流。今天博主主要来介绍Seq2Seq模型中的比较著名的两大attention机制：Bahdanau 和 Luong。Seq2seq在介绍Attention机制之前，首先简单地介绍下Seq2Seq的模型框架。Seq2Seq可以解决文本序列生成的任务：机器翻译和自动摘要生成等。Seq2Seq由Enco...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。