论文笔记《Meshed-Memory Transformer for Image Captioning》
该论文改变原始编解码中transfomer的结构,原始的attention结构将每个输入与所有输入进行加权和得到输出。如果输入是一个句子的所有单词的嵌入向量,那么输出是加了不同权重后的单词向量。如果编码器用transfomer来对图像区域进行编码,输入是一个图像区域的特征,输出是在这个区域内加了注意力后的区域特征。对于一幅图像会有多个区域特征,transfomer的局限在于不同区域特征间的先验关系无法得到。如果一个区域特征表示小男孩(boy),一个区域特征表示篮球(basketball).通过transfomer结构编码,是无法得到两个图像区域之间的先验关系到底是玩(play)还是比赛(game)。为了克服自注意力的缺点,作者提出了Meshed-Memory Attention(增强内存的注意力)在原先的k,v上增加了先验信息的编码,增加的先验信息是和k,v同样维度的可学习矩阵Mk,Mv。
解码器的输入是句子向量Y和所有编码层的输出,通过门控交叉注意力将Y与所有编码层输出连接起来。交叉注意力即用Y算的q去和编码层算出的k,v去做注意力计算。解码器的输出是通过一个α矩阵选择各编码层与Y的交叉注意力的权重,得到每层编码器的权重和重要程度。