【动手学深度学习v2】注意力机制—2 使用注意力机制Seq2Seq

Hannah2425

已于 2022-08-27 18:30:37 修改

阅读量371

点赞数

分类专栏： DeepLearning 文章标签：深度学习神经网络人工智能

于 2022-08-24 18:20:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43650171/article/details/126509981

版权

DeepLearning 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

使用注意力机制的seq2seq

动机
Seq2Seq+Attention (Bahdanau注意力模型)
总结
参考
系列文章

在【动手学深度学习v2】注意力机制—1 注意力评分函数，讲解了注意力评分函数的两种形式，但未阐明何为keys何为values。之后会根据不同的应用任务，去对应合适的keys和values。

动机

机器翻译中，每个生成的词可能相关于源句子中不同的词；但单纯的seq2seq无法做到，解码器仅用了编码器最后时刻的hidden状态；想要在翻译每个词时，注意到与之相关的源句子中的词。举例：“Hello world.”翻译成“你好世界。”，翻译“世界”的时候应该看“world”而不是最后输出的“.”。

Seq2Seq+Attention (Bahdanau注意力模型)

Bahdanau attention

key和value是编码器对每个词的输出。（第i个词的RNN的输出，key=value）
query是解码器中的RNN对上个词的输出。
注意力的输入和下个词的词嵌入合并输入解码器RNN。

总结

Seq2Seq通过隐状态在编码器和解码器中传递信息
注意力机制可以根据解码器RNN的输出匹配到合适的编码器RNN的输出，来更有效传递信息

参考

DIVE INTO DEEP LEARNING> 10 注意力机制 > 10.4. Bahdanau 注意力

66 使用注意力机制的seq2seq【动手学深度学习v2】

系列文章

【动手学深度学习v2】注意力机制—1 注意力评分函数
 【动手学深度学习v2】注意力机制—2 使用注意力机制Seq2Seq
【动手学深度学习v2】注意力机制—3 自注意力&位置编码
 【动手学深度学习v2】注意力机制—4 Transformer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【动手学深度学习v2】注意力机制—2 使用注意力机制Seq2Seq

【动手学深度学习v2】注意力机制—使用注意力机制Seq2Seq
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。