2021-09-20

论文笔记《Meshed-Memory Transformer for Image Captioning》

该论文改变原始编解码中transfomer的结构,原始的attention结构将每个输入与所有输入进行加权和得到输出。如果输入是一个句子的所有单词的嵌入向量,那么输出是加了不同权重后的单词向量。如果编码器用transfomer来对图像区域进行编码,输入是一个图像区域的特征,输出是在这个区域内加了注意力后的区域特征。对于一幅图像会有多个区域特征,transfomer的局限在于不同区域特征间的先验关系无法得到。如果一个区域特征表示小男孩(boy),一个区域特征表示篮球(basketball).通过transfomer结构编码,是无法得到两个图像区域之间的先验关系到底是玩(play)还是比赛(game)。为了克服自注意力的缺点,作者提出了Meshed-Memory Attention(增强内存的注意力)在原先的k,v上增加了先验信息的编码,增加的先验信息是和k,v同样维度的可学习矩阵Mk,Mv。
增强记忆的编码器

解码器的输入是句子向量Y和所有编码层的输出,通过门控交叉注意力将Y与所有编码层输出连接起来。交叉注意力即用Y算的q去和编码层算出的k,v去做注意力计算。解码器的输出是通过一个α矩阵选择各编码层与Y的交叉注意力的权重,得到每层编码器的权重和重要程度。
在这里插入图网格解码器片描述
网络整体结构

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值