2021-09-20

最新推荐文章于 2024-03-27 17:48:24 发布

Jennifer

最新推荐文章于 2024-03-27 17:48:24 发布

阅读量234

点赞数

文章标签：深度学习自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44928039/article/details/120393557

版权

论文笔记《Meshed-Memory Transformer for Image Captioning》

该论文改变原始编解码中transfomer的结构，原始的attention结构将每个输入与所有输入进行加权和得到输出。如果输入是一个句子的所有单词的嵌入向量，那么输出是加了不同权重后的单词向量。如果编码器用transfomer来对图像区域进行编码，输入是一个图像区域的特征，输出是在这个区域内加了注意力后的区域特征。对于一幅图像会有多个区域特征，transfomer的局限在于不同区域特征间的先验关系无法得到。如果一个区域特征表示小男孩（boy），一个区域特征表示篮球(basketball).通过transfomer结构编码，是无法得到两个图像区域之间的先验关系到底是玩（play）还是比赛（game）。为了克服自注意力的缺点，作者提出了Meshed-Memory Attention（增强内存的注意力）在原先的k,v上增加了先验信息的编码，增加的先验信息是和k,v同样维度的可学习矩阵Mk,Mv。
增强记忆的编码器

解码器的输入是句子向量Y和所有编码层的输出，通过门控交叉注意力将Y与所有编码层输出连接起来。交叉注意力即用Y算的q去和编码层算出的k,v去做注意力计算。解码器的输出是通过一个α矩阵选择各编码层与Y的交叉注意力的权重，得到每层编码器的权重和重要程度。
在这里插入图网格解码器片描述
网络整体结构

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021-09-20

论文笔记《Meshed-Memory Transformer for Image Captioning》该论文改变原始编解码中transfomer的结构，原始的attention结构将每个输入与所有输入进行加权和得到输出。如果输入是一个句子的所有单词的嵌入向量，那么输出是加了不同权重后的单词向量。如果编码器用transfomer来对图像区域进行编码，输入是一个图像区域的特征，输出是在这个区域内加了注意力后的区域特征。对于一幅图像会有多个区域特征，transfomer的局限在于不同区域特征间的先验关系无法得
复制链接

扫一扫

Jennifer CSDN认证博客专家 CSDN认证企业博客

码龄5年

6: 原创

111万+: 周排名

45万+: 总排名

1000: 访问

: 等级

72: 积分

7: 粉丝

4: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

最新评论

linux常用指令记录
泰山AI: 写的好，很nice!欢迎一起交流!

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。