背 景:
对现有字幕进行编辑更容易些,编辑字幕不需要关注现有信息,使它只需要专注于固定细节(例 如重复的单词)就可以。
创新点:
本文提出了一种基于现有字幕迭代自适应细化的图像字幕处理方法。
我们的模型由两个子模块组成:
-
EditNet:具有自适应复制机制(Copy-LSTM)和选择性复制存储器注意机制(SCMA)的语言模块。一个编辑 现有图像标题的框架,由一个带有选择性复制存储器注意(SCMA)机制的复制LSTM组成。
-
DCNet:一种基于LSTM的去噪自动编码器,它学习去噪以前的标题。 我们用一个新的目标函数(隐藏状态之 间的MSE)对DCNET进行优化,发现它是一种简单有效的改进方法我们解码器的性能。
这些组件使我们的模型能够直接从现有修改现有的标题。
我们的模型如何编辑现有的图像标题?在每个解码步骤中,都会生成注意权重,这些权重对应于现有标题中每个单词的重要性。采用选择性复制记忆注意(SCMA)机制,我们选择概率最高的单词,并直接将其相应的LSTM内存状态复制到我们的语言Copy-LSTM中。也就是说,我们不是学习直接从输入标题中复制单词,而是学习是否复制与这些单词对应的隐藏状态。
EditNet及其解码器(中间)表示,现有的标题首先使用单向LSTM编码,其中每个LSTM单元输出一个单词表示(h代表隐藏状态,c代表内存状态)。隐藏状态用于计算注意力权重,然后将其与内存状态一起传递给SCMA机制。SCMA选择单个内存状态并直接将其复制到Copy-LSTM中。
文本注意向量被门控删除不正确的词,然后作为输入传递到copy-LSTM以及视觉注意向量, EditNet配备了一个基于LSTM的降噪自动编码器,将现有字幕作为输入,并将其编码为压缩后的表示形式,然后将压缩的表示形式解码为其预期的输出。