机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

注意力机制与Seq2seq模型

以下对于注意力机制叙述错误的是:

1 注意力机制借鉴了人类的注意力思维方式,以获得需要重点关注的目标区域。
2 在计算注意力权重时,key 和 query 对应的向量维度需相等。
3 点积注意力层不引入新的模型参数。
4 注意力掩码可以用来解决一组变长序列的编码问题。

答案:2

在Dot-product Attention中,key与query维度需要一致,在MLP Attention中则不需要。

以下对于加入Attention机制的seq2seq模型的陈述正确的是:

1 seq2seq模型不可以生成无穷长的序列。
2 每个时间步,解码器输入的语境向量(context vector)相同
3 解码器RNN仍由编码器最后一个时间步的隐藏状态初始化。
4 引入注意力机制可以加速模型训练。

答案:3

选项1:seq2seq模型的预测需人为设定终止条件,设定最长序列长度或者输出[EOS]结束符号,若不加以限制则可能生成无穷长度序列

选项2:不同,每个位置都会计算各自的attention输出

选项3:正确

选项4:注意力机制本身有高效的并行性,但引入注意力并不能改变seq2seq内部RNN的迭代机制,因此无法加速。

关于点积注意力机制描述错误的是:

1 高维张量的矩阵乘法可用于并行计算多个位置的注意力分数。
2 计算点积后除以根号d以减轻向量维度对注意力权重的影响。
3 可视化注意力权重的二维矩阵有助于分析序列内部的依赖关系。
4 对于两个有效长度不同的输入序列,若两组键值对完全相同,那么对于同一个query的输出一定相同。

答案:4

有效长度不同导致 Attention Mask 不同,屏蔽掉无效位置后进行attention,会导致不同的输出。参考代码Dot-Product Attention的测试部分。

资料来源:

伯禹学习平台-ElitesAI·动手学深度学习PyTorch版-注意力机制与Seq2seq模型
https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/quiz/wnRzAVgCmiBmHBrTMJ1-O?showDetail

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值