机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

最新推荐文章于 2021-04-20 16:14:59 发布

weixin_46123847

最新推荐文章于 2021-04-20 16:14:59 发布

阅读量387

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46123847/article/details/104381026

版权

注意力机制与Seq2seq模型

以下对于注意力机制叙述错误的是：

1 注意力机制借鉴了人类的注意力思维方式，以获得需要重点关注的目标区域。
2 在计算注意力权重时，key 和 query 对应的向量维度需相等。
3 点积注意力层不引入新的模型参数。
4 注意力掩码可以用来解决一组变长序列的编码问题。

答案：2

在Dot-product Attention中，key与query维度需要一致，在MLP Attention中则不需要。

以下对于加入Attention机制的seq2seq模型的陈述正确的是：

1 seq2seq模型不可以生成无穷长的序列。
2 每个时间步，解码器输入的语境向量(context vector)相同
3 解码器RNN仍由编码器最后一个时间步的隐藏状态初始化。
4 引入注意力机制可以加速模型训练。

答案：3

选项1：seq2seq模型的预测需人为设定终止条件，设定最长序列长度或者输出[EOS]结束符号，若不加以限制则可能生成无穷长度序列

选项2：不同，每个位置都会计算各自的attention输出

选项3：正确

选项4：注意力机制本身有高效的并行性，但引入注意力并不能改变seq2seq内部RNN的迭代机制，因此无法加速。

关于点积注意力机制描述错误的是：

1 高维张量的矩阵乘法可用于并行计算多个位置的注意力分数。
2 计算点积后除以根号d以减轻向量维度对注意力权重的影响。
3 可视化注意力权重的二维矩阵有助于分析序列内部的依赖关系。
4 对于两个有效长度不同的输入序列，若两组键值对完全相同，那么对于同一个query的输出一定相同。

答案：4

有效长度不同导致 Attention Mask 不同，屏蔽掉无效位置后进行attention，会导致不同的输出。参考代码Dot-Product Attention的测试部分。

资料来源：

伯禹学习平台-ElitesAI·动手学深度学习PyTorch版-注意力机制与Seq2seq模型
https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/quiz/wnRzAVgCmiBmHBrTMJ1-O?showDetail

weixin_46123847

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

机器翻译及相关技术以下对于注意力机制叙述错误的是：1 注意力机制借鉴了人类的注意力思维方式，以获得需要重点关注的目标区域。2 在计算注意力权重时，key 和 query 对应的向量维度需相等。3 点积注意力层不引入新的模型参数。4 注意力掩码可以用来解决一组变长序列的编码问题。答案：2在Dot-product Attention中，key与query维度需要一致，在MLP Atten...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。