【动手学深度学习v2】注意力机制—2 使用注意力机制Seq2Seq


【动手学深度学习v2】注意力机制—1 注意力评分函数,讲解了注意力评分函数的两种形式,但未阐明何为keys何为values。之后会根据不同的应用任务,去对应合适的keys和values。

动机

机器翻译中,每个生成的词可能相关于源句子中不同的词;但单纯的seq2seq无法做到,解码器仅用了编码器最后时刻的hidden状态;想要在翻译每个词时,注意到与之相关的源句子中的词。举例:“Hello world.”翻译成“你好世界。”,翻译“世界”的时候应该看“world”而不是最后输出的“.”。

Seq2Seq+Attention (Bahdanau注意力模型)

Bahdanau attention

  • key和value编码器对每个词的输出。(第i个词的RNN的输出,key=value)
  • query解码器中的RNN对上个词的输出。
  • 注意力的输入和下个词的词嵌入合并输入解码器RNN。

总结

  • Seq2Seq通过隐状态在编码器和解码器中传递信息
  • 注意力机制可以根据解码器RNN的输出匹配到合适的编码器RNN的输出,来更有效传递信息

参考

DIVE INTO DEEP LEARNING> 10 注意力机制 > 10.4. Bahdanau 注意力

66 使用注意力机制的seq2seq【动手学深度学习v2】

系列文章

【动手学深度学习v2】注意力机制—1 注意力评分函数
【动手学深度学习v2】注意力机制—2 使用注意力机制Seq2Seq
【动手学深度学习v2】注意力机制—3 自注意力&位置编码
【动手学深度学习v2】注意力机制—4 Transformer

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值